首先说一下文本分析流程:
本系列所有大框架内容:
NLP学习-分词:https://blog.csdn.net/RHJlife/article/details/104748790
NLP学习-清洗:https://blog.csdn.net/RHJlife/article/details/104834980
NLP学习-词形标准化:https://blog.csdn.net/RHJlife/article/details/104835785
NLP学习-文本特征向量化:https://mp.csdn.net/console/editor/html/104893608
NLP学习-建模:暂无
本文将介绍文本分析过程中的文本清洗相关内容。
先说一个关于数据清洗的内容:
数据重复处理
- 数据错误处理
- 数据缺失处理
- 数据异常处理
对于我们使用的数据(包括文本、图像、数字信息等)以上操作是必不可少的,但是在文本清洗过程中还需要一些和文本相关的清洗操作,如下:
- 无用信息的清理
- 特殊文本的清理
- 停用词的处理
1.无用信息的清理:
- 我们爬去的数据可能带有html或者url标签,这些标签往往都是无用数据
- 在我们的数据中可能有一些长文本或者长字符串,例如电话号码等也可能是无用信息
- 其中还有许多对于模型训练没有任何作用的文本信息,例如某些广告等也可能是无用信息
2.特殊文本的清理:
变形词是一些符号不同,但意义相同的的,这类词增加了涉黄涉政等特殊的文本分类场景下的分类难度,如下:
- 特殊符号替换(对于有实际意义的可以替换成相应的语义,无太大实际意义也可以直接去掉(认为成停用词))
- 同音近音近型替换(going、went、go->go)(有一种说法是往往英语需要,而中文一般不需要,可自行了解一下~)(实际上的实现是有一定难度的,清洗后面的标准化也是讲解这一方面的~)
- 简繁体替换等(我愛中國->我爱中国)
3.停用词的处理:
停用词是一些不包含或包含极少语义的词,另外标点符号和其他特殊符号也可以被认为是一种停用词。NLP学习中我们常常把停用词或字出现频率很低的词语给过滤掉。因为停用词和出现频率特别低的词汇对于分析往往作用不大,所以一般去掉。将停用词和出现频率特别低的词汇去掉后就可以获得一个词典—所有分词词汇的集合(无停用词和低频词)
以上就是文本清理的相关内容了~