- 博客(4)
- 收藏
- 关注
原创 K-means聚类算法
K-means聚类算法背景照例每周一个机器学习的经典算法,聚类是机器学习中一种重要的算法,特别是在推荐中,用户喜欢某一类item,我们常常需要把这些item给聚类到一起。一个类中的item肯定是有相似特征的,比如上一回朴素贝叶斯分类器中,我们把小明喜欢的妹子给看成一大类,那么从历史数据中可以看出来,小明喜欢胸大的妹子,胸大就是这些妹子的共同特征。相似item那么现在问题来了,如何才能算是相似的ite
2015-03-15 22:44:01 606
原创 朴素贝叶斯分类器
朴素贝叶斯分类器背景算是机器学习比较经典的算法中之一了,刚开始接触机器学习的时候就有耳闻,当时看了看,看不懂,现在回过头来渐入佳境,写个博客mark一下。贝叶斯定理 贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。 按照乘法法则:P(A∩B)=P(A)
2015-03-07 09:27:30 873 2
原创 linux删除大文件的前n行
linux删除大文件的前n行在数据挖掘中我们经常会增量更新训练日志,需要删除前n行的过期数据,直接用sed命令比较慢,谷歌了一下,发现有个奇技淫巧: tail -n +3 old_file > new_file mv new_file old_file 这样就删除了前2行,速度要比sed命令快
2015-03-02 20:11:56 21965
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人