数据挖掘
我就想叫这个
这个作者很懒,什么都没留下…
展开
-
用户画像初探-Sogou用户画像比赛
起源是师兄叫着参加Sogou的用户画像比赛。过程中师兄比较忙,所以就自己试着摸索了一下。这也是第一次参加数据挖掘的比赛。所以记录一下,勉励自己更加努力才行。LDA主题模型+决策树1、LDA主题模型文本预处理(编码问题烦死了)结巴分词(去停用词)大文本处理(内存8G直接跑到内存溢出,让我哭一会儿)gensim中关于主题模型函数讲解2、决策树决策树生成对于连续数的处理返回结果的问题如何原创 2016-11-10 11:18:53 · 2220 阅读 · 1 评论 -
《统计学习方法》学习总结(未完待续)
统计学习方法的三要素:模型(model)、策略(strategy)、算法(algorithm).生成模型和判别模型分类 生成模型:可以还原出联合概率分布P(X,Y),学习收敛速度更快,存在隐变量时还是可以使用。 朴素贝叶斯分类法隐马尔可夫模型判别模型:直接学习条件概率P(X|Y)或决策函数f(X),学习准确率更高,可以简化学习问题(对数据进行各种程度上的抽象、定义特征并使用特征) k近邻原创 2017-03-02 00:12:23 · 419 阅读 · 0 评论 -
Pandas学习笔记(不定期更新)
Pandas学习笔记同时记录一些小坑原创 2017-04-09 23:06:37 · 2639 阅读 · 0 评论 -
Scikit-learn(python)学习笔记 (不定期更新)
Sckkit-learn学习笔记原创 2017-04-08 00:28:30 · 958 阅读 · 0 评论 -
机器学习-聚类(K-Means)
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。转载 2017-08-08 19:40:48 · 783 阅读 · 0 评论