1. 文本特征处理
- 了解文本特征处理的作用.
- 掌握实现常见的文本特征处理的具体方法.
文本特征处理的作用:
- 文本特征处理包括为语料添加具有普适性的文本特征, 如:n-gram特征, 以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范. 这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.
常见的文本特征处理方法:
- 添加n-gram特征
- 文本长度规范
1.1 什么是n-gram特征
给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.
举个栗子:
假设给定分词列表: ["是谁", "敲动"