![14aa75dba03f9a63e6b7ca7fa5a1387f.png](https://img-blog.csdnimg.cn/img_convert/14aa75dba03f9a63e6b7ca7fa5a1387f.png)
连享会-“文本分析与爬虫”专题研讨会
一. 导读
文本分析主要用来分词分析,情感分析以及主题分析,参考 知乎用户的文章,他从方法代码上讲解了中英文分词(wordcloud,jieba
),中英文情感分析(textblob,snownlp
),以及主题分析(LDA).
应某位同学的要求,要处理文档里的分词,主题的统计功能,故本人做了个通用的小脚本,功能如下:
- 词频取词,并生成气泡图
- 重要性取词,并生成气泡图
- 主题取词, 并导出
html
格式(好吧,pyLDAvis
这个包有问题,没法导出来..,可以在notebook
里面看)
接下来进行举例和分析