目录
0 概述
- 文本特征处理的作用
- 文本特征处理包括
- 语料添加具有普适性的文本特征,如:n-gram特征。
- 对加入特征之后的文本语料进行必要处理,如:长度规范。
- 能够有效的将重要的文本特征加入模型训练中,增强模型评低指标。
- 文本特征处理包括
- 常见的文本特征处理方法
- 添加N-Gram特征
- 文本长度规范
1 N-Gram特征
- What is N-Gram特征
- 给定一段文本序列,其中n个词或字的相邻共现特征。即n-gram特征,常用的n-gram特征是bi-gram特征(二元特征)和tri-gram特征(三元特征),分别对应n为2和3。
- 提取N-Gram特征
# 一般n-gram中的n取2或3,以n取2为例
ngram_range = 2
def create_ngram_set(input_list):
'''
description:从数值列表中提取所有的n-gram特征
:param input_list:输入的数值列表&