- 博客(3)
- 收藏
- 关注
原创 机器学习笔记15-数据预处理
转换倾斜的连续特征 一个数据集有时可能包含至少一个靠近某个数字的特征,但有时也会有一些相对来说存在极大值或者极小值的不平凡分布的的特征。算法对这种分布的数据会十分敏感,并且如果这种数据没有能够很好地规一化处理会使得算法表现不佳。 对于高度倾斜分布的特征如'capital-gain'和'capital-loss',常见的做法是对数据施加一个对数转换,将数据转换成对数,这样非常大和非常
2017-06-20 14:04:20 826
原创 机器学习笔记14-集成 B&B
集成 B&B Bagging 和 Boosting 是提高监督式学习方案准确性的两种常见集成方法。 收集一堆简单规则,并且这些规则都有点意义 能提供一些帮助。但是,单靠某一个规则无法得到最好的答案,合并成一个效果不错的复杂规则。 先通过某个数据子集进行学习,形成某个规则 然后通过另一数据子集进行学习,再接着形成第四、第五乃至更多个规则,最后你收集所有这些规则,并将
2017-06-06 16:19:19 305
原创 机器学习笔记13-贝叶斯
根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x) 朴素贝叶斯假设各特征独立同分布,判断属于哪一类别只用比较概率大小,我们可以假设p(x)相同(即所有类别等可能发生),p(y)相同(均匀分布),所以只需要比较p(x|y)即可。 避免p(x|y)=0,我们用到: 拉普拉斯平滑
2017-06-05 11:44:25 242
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人