自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理

参考:https://www.cnblogs.com/serena45/p/5559122.html分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。统一区间,也称等宽分箱法,使...

2019-09-12 15:09:18 21254

原创 特征工程

1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法    3.1.2 相关系数法    3...

2019-09-12 14:28:35 287

原创 特征选择(含代码)

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可以将...

2019-09-12 14:20:06 356

转载 特征选择方法代码示例

from sklearn.cross_validation import cross_val_score, ShuffleSplitfrom sklearn.datasets import load_bostonfrom sklearn.ensemble import RandomForestRegressor #Load boston housing dataset as an exa...

2019-09-12 14:13:39 549

原创 什么情况下(不)需要归一化

六. 什么情况下(不)需要归一化?需要:基于参数的模型或基于距离的模型,都是要进行特征的归一化。 不需要:基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。...

2019-09-12 14:07:12 3734

转载 交叉验证--深度 | 机器学习中的模型评价、模型选择及算法选择

1

2019-09-10 20:03:42 237

转载 交叉验证(CrossValidation)方法

1

2019-09-10 16:33:20 414

转载 xgb调参

0

2019-09-10 14:19:27 265

转载 Python计算量化策略评估指标

量化评估年化收益率年化收益率是把当前收益率(日收益率、周收益率、月收益率)换算成年收益率来计算的,是一种理论收益率,并不是真正的已取得的收益率。因为年化收益率是变动的,所以年收益率不一定和年化收益率相同。总收益率:R=\frac{P_T-P_t}{P_t}其中,P_T是期末卖出时的价格,P_t是期初买入时的价格。年化收益率:R_p=(1+R)^{\frac{m}{n}}-1其中...

2019-09-09 17:40:02 2941

转载 集成Jupyter notebook的工具或平台

公司的机器学习平台期望通过集成Jupyter notebook来提供探索式分析功能,在设计过程中首先分析了几款常见的集成jupyter的工具或软件平台,如下所示:Neptunehttps://app.neptune.mlKagglehttps://www.kaggle.com/dataikuhttps://www.dataiku.com/阿里天池...

2019-09-08 19:14:40 1034

原创 数字货币历史行情下载

https://www.cryptodatadownload.com/data/northamerican/

2019-09-06 15:38:17 2192

转载 scikit-learn 梯度提升树(GBDT)调参小结

https://www.cnblogs.com/DjangoBlog/p/6201663.html

2019-09-06 14:24:24 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除