起源是师兄叫着参加Sogou的用户画像比赛。过程中师兄比较忙,所以就自己试着摸索了一下。这也是第一次参加数据挖掘的比赛。所以记录一下,勉励自己更加努力才行。
LDA主题模型+决策树
1、LDA主题模型
- 文本预处理(编码问题烦死了)
- 结巴分词(去停用词)
- 大文本处理(内存8G直接跑到内存溢出,让我哭一会儿)
- gensim中关于主题模型函数讲解
2、决策树
- 决策树生成
- 对于连续数的处理
- 返回结果的问题
- 如何实现一棵方便的决策树API
起源是师兄叫着参加Sogou的用户画像比赛。过程中师兄比较忙,所以就自己试着摸索了一下。这也是第一次参加数据挖掘的比赛。所以记录一下,勉励自己更加努力才行。