分词
分词:将连续的文本,分割成语义合理的若干词汇序列
Example:阿里云/自然/语言/处理
划分方式不唯一,根据相应的需求进行划分
停用词过滤
在语句中,句子分为主干(主谓宾)与枝叶(定状补)两个部分
停用词:在文本中大量存在,但却对语义分析没有帮助的词
词干提取、词形还原、词袋模型
词干提取:是指对一个单词去掉后缀,还原为词本身。主要应用在英文等西方语言中
词形还原:指对同一单词不同形式的识别,将单词还原为标准形式,主要应用于英文等西方语言中
以上两种相同点:二者都是对同一个单词的不同格式进行处理
不同点:
- 词干提取是去掉单词的后缀
- 词形还原是以词元为依据,根据语义进行分析,获取单词的标准形式
词袋模型(bag of words model):用来将文本转换成数值特征向量的表示形式。方式为将每个文本构建一个特征向量,其中包含每个单词在文档中出现的次数