- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 OneHotEncoder的理解
编码的对象是数组,编码逻辑是将行认为是sample,列认为是feature。将每列出现的值按一定的规律排列(比如大小),加入fit的数据又N列,encoder后的categories便会有N个。对于需要transform的数组来说,第一列中的值在categories的相应位置存在的,则为1,不存在,则为0 。以此类推,第N列中的值在第N个categories中存在就为1,不存在就为0。将所有 ...
2019-02-16 18:16:43 5080
翻译 决策树实践小技巧
1.当sample较少,features较多时,容易产生过拟合。所以进行降为预处理(PCA,ICA,feature selection)很重要。2.可以用max_depth=3作为树的初始深度,export函数来可视化拟合的过程,对拟合过程有个初步体验,此后再增加树的深度。3.用法max_depth来控制树的大小,防止过拟合。(Remember that the number of sampl...
2019-02-16 11:32:27 244
转载 pandas 数据通过index排序
e=pd.DataFrame(b,index=a)e011 one010 one112 one26 one316 one413 one515 one68 ADL5 CEL9 CES7 up0 dn14 os4 price2 vol3 low1 hi...
2019-02-15 14:36:37 8636
翻译 discriminant_analysis.LinearDiscriminantAnalysis 的Shrinkage参数
1.当样本数(sample)小于特性数(feature)时用于提高预测协方差矩阵的工具。2.只有当solver 为 ‘lsqr’ 或 ‘eigen’时可用。3.值在0-1之间:当为0时,即没有shrinkage;当为1时,意味着用方差的对角阵来评估协方差矩阵(which means that the diagonal matrix of variances will be used as a...
2019-02-15 11:13:42 407
翻译 R² score
用来评估模型的预测能力。当不管输入的特征值是多少,预测值总是平均值时,R² 为0。公式如下:应用:from sklearn.metrics import r2_scorey_true = [3, -0.5, 2, 7]y_pred = [2.5, 0.0, 2, 8]r2_score(y_true, y_pred)0.9486081370449679...
2019-02-15 10:53:11 1265
原创 cross_val_score中的scoring参数
参考文章:https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter默认为None其他选项如下:1.accuracy:返回的值是正确率,等同于下面的方式。from sklearn.metrics import accuracy_scorey_pred=[0,2,1,3]...
2019-02-14 12:11:08 3596
转载 Stratified k-fold&TimeSeriesSplit
教程连接:https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation当样本中各类的含量不平衡时用Stratified k-fold函数来选择训练集和学习集。例如:X=np.ones(10)y=[0,0,0,0,1,1,1,1,1,1]len(y)10...
2019-02-13 19:47:05 4294
转载 itertools.product()
原文:https://blog.csdn.net/qq_33528613/article/details/79365291product(list1, list2) 依次取出list1中的每1个元素,与list2中的每1个元素,组成元组,然后,将所有的元组组成一个列表,返回。例如:a=[2,4,6]b=[100,200]for i in itertools.product(a,b...
2019-02-12 14:42:28 1228
原创 confusion matix
对角线上的值表示预测项和实际值相等的元素,值越大表示准确率越高,预测结果越好;非对角线上的值表示预测错误的元素。from sklearn.metrics import confusion_matrixeps=np.finfo(float).epsy_test=[0,1,1,0,1,0,0,1]y_pred=[1,0,0,1,1,0,1,1]cnf_matrix=confusion...
2019-02-12 14:40:14 247
原创 confusion_matrix
y_true=[0,0,0,1,1,1,1,1]y_pred=[0,1,1,0,0,1,1,1]confusion_matrix(y_true,y_pred)array([[1, 2],[2, 3]])函数结果的理解如下:pred &true中包含的数字有0,1两个,则:00位置上的数表示的是实际上是0,预测值为0的个数,在本例中为1;01位置上的数表示实际上是...
2019-02-05 22:03:28 1150
转载 datetime的用法
1.获取当前时间:datetime.datetime.now() #注意是两个datetime2.特定时间转为datetime时间的方式:datetime.datetime(2018,1,1)参考文章:https://blog.csdn.net/sunjinjuan/article/details/79113120...
2019-02-02 07:29:29 3692
原创 pct_change()
官网链接:http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pct_change.html计算变化率:(后一个值-前一个值)/前一个值例如:s=pd.Series([1,2,3,4,5])s.pct_change()0 NaN1 1.0000002 0...
2019-02-01 23:14:48 17863
转载 pandas ewm
在pandas 最新版中,ewma函数已经不可用了,但可以用ewm函数+mean()函数来代替。举例如下:df a b0 2001 20031 2002 20022 2003 2004df[‘a’].ewm(span=2).mean()0 2001.0000001 2001.7500002 2002.615385...
2019-02-01 10:28:42 16014
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人