数据挖掘
文章平均质量分 70
power0405hf
这个作者很懒,什么都没留下…
展开
-
数据清洗
1.概念数据清洗:把脏数据清洗掉,提高数据质量。 Data cleansing, Data cleaning, Data scrubbing三种表达方式都可以,意思都是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。 数据清洗分为有监督清洗和无监督清洗两类。有监督清洗:在领域专家的指导下,收集分析数据,手工去除明显的噪声数据和重复记录,填补缺值数据等清原创 2015-11-04 21:45:02 · 16297 阅读 · 0 评论 -
GBDT写的好的资料
首先是论文:Greedy Function Approximation: A Gradient Boosting Machine GBDT理解二三事 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT GBDT的wiki百科原创 2017-05-21 15:01:05 · 1850 阅读 · 0 评论 -
标准化,归一化和正则化
0.参考文献关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化 2017.6.3更新: 数据标准化/归一化normalization 归一化与标准化1.标准化用的最多的是 z-score标准化公式为 (X - mean)/ std计算时对每个属性(每列)分别进行。 将数据按其属性(一般是按列)减去其均值,并除以其标准差,得到的结果是,对每个属性来说,所有数据都聚集在0附近,方原创 2016-12-04 20:24:22 · 12121 阅读 · 0 评论