机器学习与自然语言处理
icaiyuniyue
这个作者很懒,什么都没留下…
展开
-
数据挖掘十大经典算法(7) AdaBoost
数据挖掘十大经典算法(7)AdaBoost 原文:http://blog.csdn.net/aladdina/article/details/4141124 Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确转载 2017-06-15 20:50:02 · 145 阅读 · 0 评论 -
Mahout系列之----kmeans 聚类
Mahout系列之----kmeans 聚类 原文:http://thd52java.iteye.com/blog/1973523 Kmeans是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。 Kmeans算法描述 输入:簇的数目k;包含n个对象的数据集D。 输出:k个簇的集合。 方法: 从D中任意选择k个对象作为初始簇中心; repeat; 根据簇中对象的均值,将每个转载 2017-06-14 10:28:23 · 199 阅读 · 0 评论 -
机器学习:防止过拟合的方法
机器学习:防止过拟合的方法 原文:http://blog.csdn.net/ztf312/article/details/51084950 在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据的分布进行估计的时候,或者在对模型进行过度训练(overtraining)时,常常会导致模型的过拟合(overfitting),即模型复杂度比实际数据复杂度还要高。 防止过拟合,主要从以转载 2017-06-14 10:30:56 · 160 阅读 · 0 评论