2019年02月_Marina-ju

原创 OneHotEncoder的理解

编码的对象是数组，编码逻辑是将行认为是sample，列认为是feature。将每列出现的值按一定的规律排列（比如大小），加入fit的数据又N列，encoder后的categories便会有N个。对于需要transform的数组来说，第一列中的值在categories的相应位置存在的，则为1，不存在，则为0 。以此类推，第N列中的值在第N个categories中存在就为1，不存在就为0。将所有 ...

2019-02-16 18:16:43 5080

翻译决策树实践小技巧

1.当sample较少，features较多时，容易产生过拟合。所以进行降为预处理（PCA，ICA，feature selection）很重要。2.可以用max_depth=3作为树的初始深度，export函数来可视化拟合的过程，对拟合过程有个初步体验，此后再增加树的深度。3.用法max_depth来控制树的大小，防止过拟合。（Remember that the number of sampl...

2019-02-16 11:32:27 244

转载 pandas 数据通过index排序

e=pd.DataFrame(b,index=a)e011 one010 one112 one26 one316 one413 one515 one68 ADL5 CEL9 CES7 up0 dn14 os4 price2 vol3 low1 hi...

2019-02-15 14:36:37 8636

翻译 discriminant_analysis.LinearDiscriminantAnalysis 的Shrinkage参数

1.当样本数（sample）小于特性数（feature）时用于提高预测协方差矩阵的工具。2.只有当solver 为 ‘lsqr’ 或 ‘eigen’时可用。3.值在0-1之间：当为0时，即没有shrinkage；当为1时，意味着用方差的对角阵来评估协方差矩阵（which means that the diagonal matrix of variances will be used as a...

2019-02-15 11:13:42 407

翻译 R² score

用来评估模型的预测能力。当不管输入的特征值是多少，预测值总是平均值时，R² 为0。公式如下：应用：from sklearn.metrics import r2_scorey_true = [3, -0.5, 2, 7]y_pred = [2.5, 0.0, 2, 8]r2_score(y_true, y_pred)0.9486081370449679...

2019-02-15 10:53:11 1265

原创 cross_val_score中的scoring参数

参考文章：https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter默认为None其他选项如下：1.accuracy:返回的值是正确率，等同于下面的方式。from sklearn.metrics import accuracy_scorey_pred=[0,2,1,3]...

2019-02-14 12:11:08 3596

转载 Stratified k-fold&TimeSeriesSplit

教程连接：https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation当样本中各类的含量不平衡时用Stratified k-fold函数来选择训练集和学习集。例如：X=np.ones(10)y=[0,0,0,0,1,1,1,1,1,1]len(y)10...

2019-02-13 19:47:05 4294

转载 itertools.product()

原文：https://blog.csdn.net/qq_33528613/article/details/79365291product(list1, list2) 依次取出list1中的每1个元素，与list2中的每1个元素，组成元组，然后，将所有的元组组成一个列表，返回。例如：a=[2,4,6]b=[100,200]for i in itertools.product(a,b...

2019-02-12 14:42:28 1228

原创 confusion matix

对角线上的值表示预测项和实际值相等的元素，值越大表示准确率越高，预测结果越好；非对角线上的值表示预测错误的元素。from sklearn.metrics import confusion_matrixeps=np.finfo(float).epsy_test=[0,1,1,0,1,0,0,1]y_pred=[1,0,0,1,1,0,1,1]cnf_matrix=confusion...

2019-02-12 14:40:14 247

原创 confusion_matrix

y_true=[0,0,0,1,1,1,1,1]y_pred=[0,1,1,0,0,1,1,1]confusion_matrix(y_true,y_pred)array([[1, 2],[2, 3]])函数结果的理解如下：pred &true中包含的数字有0，1两个，则：00位置上的数表示的是实际上是0，预测值为0的个数，在本例中为1；01位置上的数表示实际上是...

2019-02-05 22:03:28 1150

原创 n_jobs

n_jobs:用来设定CPU运行情况，n_jobs=-1便是实用全部的CPU。一般不需要自己设定，选默认值。

2019-02-04 09:25:54 9090 4

转载 datetime的用法

1.获取当前时间：datetime.datetime.now() #注意是两个datetime2.特定时间转为datetime时间的方式：datetime.datetime(2018,1,1)参考文章：https://blog.csdn.net/sunjinjuan/article/details/79113120...

2019-02-02 07:29:29 3692

原创 pct_change()

官网链接：http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pct_change.html计算变化率：（后一个值-前一个值）／前一个值例如：s=pd.Series([1,2,3,4,5])s.pct_change()0 NaN1 1.0000002 0...

2019-02-01 23:14:48 17863

转载 pandas ewm

在pandas 最新版中，ewma函数已经不可用了，但可以用ewm函数+mean（）函数来代替。举例如下：df a b0 2001 20031 2002 20022 2003 2004df[‘a’].ewm(span=2).mean()0 2001.0000001 2001.7500002 2002.615385...

2019-02-01 10:28:42 16014

莲君