机器学习
文章平均质量分 74
aprilvkuo
这个作者很懒,什么都没留下…
展开
-
特征选择
特征选择1. 移除低方差方差计算公式:离散型: D(X)=E{[X-E(X)]^2}=E(X^2) - [ E(X)]^2∑(X−avg(X))2N\sum \frac {(X-avg(X))^2}{N}#sklearn 实现 # http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceTh翻译 2017-11-27 16:17:52 · 4940 阅读 · 0 评论 -
标准化与归一化
标准化与归一化Referencehttps://www.zhihu.com/question/20467170http://blog.csdn.net/pipisorry/article/details/52247379https://www.zhihu.com/question/30038463/answer/50491149归一化一般的方法是 (x-min(x))/(max(x)-min(x))转载 2017-12-01 15:27:24 · 308 阅读 · 1 评论 -
XGboost调参
xgboost 使用与调参XGBoost的优势XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势:4.1 正则化 标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。 实际上,XGBoost以“正则化提升(regularized boosting)”技术而闻名。 4.2转载 2017-11-24 00:34:42 · 252 阅读 · 0 评论 -
中文垃圾邮件检测
垃圾邮件检测github_repositories1. 数据集以及处理https://pan.baidu.com/s/1i4HaYTB#list/path=%2F对文件进行merge(Merge.py), 而且由于会出现很多重复行,用uniq 进行去重。 16207 ham_new.txt 4702 spam_new.txt 20909 total这边没有进一步对进行正负样本进行调原创 2017-11-26 15:02:12 · 1917 阅读 · 0 评论