用 Python 做文本挖掘的基本流程

最新推荐文章于 2024-06-09 00:06:17 发布

Hamilton_

最新推荐文章于 2024-06-09 00:06:17 发布

阅读量2.1k

点赞数

文章标签： python 文本挖掘

本文链接：https://blog.csdn.net/dlut_tide/article/details/52087018

版权

收集数据
- 数据集。如果是已经被人做成数据集了，这就省去了很多麻烦事
- 抓取。这个是 Python 做得最好的事情，优秀的包有很多，比如 scrapy，beautifulsoup 等等。
预处理
1. 去掉抓来的数据中不需要的部分，比如 HTML TAG，只保留文本。结合 beautifulsoup 和正则表达式就可以了。pattern.web 也有相关功能。
2. 处理编码问题。utf-8赛高
3. 将文档分割成句子。
4. 分词。jieba大法好
5. 去掉标点符号。使用正则表达式就可以。
6. 去掉停用词。中文停词表可以参考这个。
特征提取
- Bag-of-Words
- bi-gram 和 tri-gram 以及更高的 n-gram 模型
- TF-IDF。sklearn 里面有。
- Hashing！
训练模型
- 分类，情感分析等。sklearn 里面很多方法，pattern 里有情感分析的模块，nltk 中也有一些分类器。
- 主题发现
  NMF
  (Online) Latent Dirichlet Allocation
  word2vec
- 自动文摘
Draw results
- Matplotlib
- Tag cloud
- Graph

关注