1. 基本文本处理技能
1.1 分词的概念
- 正向最大
- 逆向最大
- 双向最大匹配法
https://blog.csdn.net/unixtch/article/details/76685429
1.2 词、字符频率统计
Python的collections.Counter模块
2. 语言模型
2.1 语言模型中的一些概念
- Unigram:北/京/师/范/大/学
- Bigram:北京/京师/师范/范大/大学
- Trigram:北京师/京师范/师范大/范大学
2.2 unigram、bigram频率统计
Python的collections.Counter模块
3. 文本矩阵化
要求采用词袋模型且是词级别的矩阵化
Step1:分词(采用结巴分词来进行分词操作)
Step2:去停用词
Step3:构造词表
每篇文档的向量化