微博是从13年暑假做的,前前后后经历了3个月,从需求分析到最终在学校上线,算是数据挖掘和大数据的启蒙项目了。记得当时Team所有人都处于理论学习刚出师的阶段,所以就选择了当时研究微博比较火的几个方向:热点话题发现、特定话题情感分析,社交网络发现 这几个功能,由于时间的问题,最终只完成了前面两个,但是其中在NLP、特征提取、数据挖掘算法和数据分析流程等方面确实学到了很多。借着这个机会,好好总结一下:
项目流程
首先讲一下整个项目的流程吧,大致分为下面几个步骤:
- 数据获取
- 语料库构建
- 自然语言处理
- 特征值计算
- 空间向量模型构建
- 热点话题发现 与 特定话题情感分析
核心技术点
下面再说说每一模块用到了一些技术点:
- 自然语言处理
- 分词
- LTP语义分析
- 特征值计算方法
- 文本频数DF
- 互信息 MI
- 信息增益 IG
- 卡方检验 CHI
- 文本证据权 WET
- 期望交叉熵 ECE
- 热点话题发现
- SinglePass
- KNN
- 话题热度计算
- LDA主题模型
- 特定话题情感分析
- VSI极性调整
- VBS分析主题词词性
后续会陆续更新文章具体介绍每个步骤是怎么做的。。