- 博客(12)
- 收藏
- 关注
转载 数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理
参考:https://www.cnblogs.com/serena45/p/5559122.html分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。统一区间,也称等宽分箱法,使...
2019-09-12 15:09:18 21254
原创 特征工程
1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3...
2019-09-12 14:28:35 287
原创 特征选择(含代码)
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可以将...
2019-09-12 14:20:06 356
转载 特征选择方法代码示例
from sklearn.cross_validation import cross_val_score, ShuffleSplitfrom sklearn.datasets import load_bostonfrom sklearn.ensemble import RandomForestRegressor #Load boston housing dataset as an exa...
2019-09-12 14:13:39 549
原创 什么情况下(不)需要归一化
六. 什么情况下(不)需要归一化?需要:基于参数的模型或基于距离的模型,都是要进行特征的归一化。 不需要:基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。...
2019-09-12 14:07:12 3734
转载 Python计算量化策略评估指标
量化评估年化收益率年化收益率是把当前收益率(日收益率、周收益率、月收益率)换算成年收益率来计算的,是一种理论收益率,并不是真正的已取得的收益率。因为年化收益率是变动的,所以年收益率不一定和年化收益率相同。总收益率:R=\frac{P_T-P_t}{P_t}其中,P_T是期末卖出时的价格,P_t是期初买入时的价格。年化收益率:R_p=(1+R)^{\frac{m}{n}}-1其中...
2019-09-09 17:40:02 2941
转载 集成Jupyter notebook的工具或平台
公司的机器学习平台期望通过集成Jupyter notebook来提供探索式分析功能,在设计过程中首先分析了几款常见的集成jupyter的工具或软件平台,如下所示:Neptunehttps://app.neptune.mlKagglehttps://www.kaggle.com/dataikuhttps://www.dataiku.com/阿里天池...
2019-09-08 19:14:40 1034
转载 scikit-learn 梯度提升树(GBDT)调参小结
https://www.cnblogs.com/DjangoBlog/p/6201663.html
2019-09-06 14:24:24 144
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人