自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

莲君

仅做个人学习之用

  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 OneHotEncoder的理解

编码的对象是数组,编码逻辑是将行认为是sample,列认为是feature。将每列出现的值按一定的规律排列(比如大小),加入fit的数据又N列,encoder后的categories便会有N个。对于需要transform的数组来说,第一列中的值在categories的相应位置存在的,则为1,不存在,则为0 。以此类推,第N列中的值在第N个categories中存在就为1,不存在就为0。将所有 ...

2019-02-16 18:16:43 5080

翻译 决策树实践小技巧

1.当sample较少,features较多时,容易产生过拟合。所以进行降为预处理(PCA,ICA,feature selection)很重要。2.可以用max_depth=3作为树的初始深度,export函数来可视化拟合的过程,对拟合过程有个初步体验,此后再增加树的深度。3.用法max_depth来控制树的大小,防止过拟合。(Remember that the number of sampl...

2019-02-16 11:32:27 244

转载 pandas 数据通过index排序

e=pd.DataFrame(b,index=a)e011 one010 one112 one26 one316 one413 one515 one68 ADL5 CEL9 CES7 up0 dn14 os4 price2 vol3 low1 hi...

2019-02-15 14:36:37 8636

翻译 discriminant_analysis.LinearDiscriminantAnalysis 的Shrinkage参数

1.当样本数(sample)小于特性数(feature)时用于提高预测协方差矩阵的工具。2.只有当solver 为 ‘lsqr’ 或 ‘eigen’时可用。3.值在0-1之间:当为0时,即没有shrinkage;当为1时,意味着用方差的对角阵来评估协方差矩阵(which means that the diagonal matrix of variances will be used as a...

2019-02-15 11:13:42 407

翻译 R² score

用来评估模型的预测能力。当不管输入的特征值是多少,预测值总是平均值时,R² 为0。公式如下:应用:from sklearn.metrics import r2_scorey_true = [3, -0.5, 2, 7]y_pred = [2.5, 0.0, 2, 8]r2_score(y_true, y_pred)0.9486081370449679...

2019-02-15 10:53:11 1265

原创 cross_val_score中的scoring参数

参考文章:https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter默认为None其他选项如下:1.accuracy:返回的值是正确率,等同于下面的方式。from sklearn.metrics import accuracy_scorey_pred=[0,2,1,3]...

2019-02-14 12:11:08 3596

转载 Stratified k-fold&TimeSeriesSplit

教程连接:https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation当样本中各类的含量不平衡时用Stratified k-fold函数来选择训练集和学习集。例如:X=np.ones(10)y=[0,0,0,0,1,1,1,1,1,1]len(y)10...

2019-02-13 19:47:05 4294

转载 itertools.product()

原文:https://blog.csdn.net/qq_33528613/article/details/79365291product(list1, list2) 依次取出list1中的每1个元素,与list2中的每1个元素,组成元组,然后,将所有的元组组成一个列表,返回。例如:a=[2,4,6]b=[100,200]for i in itertools.product(a,b...

2019-02-12 14:42:28 1228

原创 confusion matix

对角线上的值表示预测项和实际值相等的元素,值越大表示准确率越高,预测结果越好;非对角线上的值表示预测错误的元素。from sklearn.metrics import confusion_matrixeps=np.finfo(float).epsy_test=[0,1,1,0,1,0,0,1]y_pred=[1,0,0,1,1,0,1,1]cnf_matrix=confusion...

2019-02-12 14:40:14 247

原创 confusion_matrix

y_true=[0,0,0,1,1,1,1,1]y_pred=[0,1,1,0,0,1,1,1]confusion_matrix(y_true,y_pred)array([[1, 2],[2, 3]])函数结果的理解如下:pred &true中包含的数字有0,1两个,则:00位置上的数表示的是实际上是0,预测值为0的个数,在本例中为1;01位置上的数表示实际上是...

2019-02-05 22:03:28 1150

原创 n_jobs

n_jobs:用来设定CPU运行情况,n_jobs=-1便是实用全部的CPU。一般不需要自己设定,选默认值。

2019-02-04 09:25:54 9090 4

转载 datetime的用法

1.获取当前时间:datetime.datetime.now() #注意是两个datetime2.特定时间转为datetime时间的方式:datetime.datetime(2018,1,1)参考文章:https://blog.csdn.net/sunjinjuan/article/details/79113120...

2019-02-02 07:29:29 3692

原创 pct_change()

官网链接:http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pct_change.html计算变化率:(后一个值-前一个值)/前一个值例如:s=pd.Series([1,2,3,4,5])s.pct_change()0 NaN1 1.0000002 0...

2019-02-01 23:14:48 17863

转载 pandas ewm

在pandas 最新版中,ewma函数已经不可用了,但可以用ewm函数+mean()函数来代替。举例如下:df a b0 2001 20031 2002 20022 2003 2004df[‘a’].ewm(span=2).mean()0 2001.0000001 2001.7500002 2002.615385...

2019-02-01 10:28:42 16014

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除