NLP学习-清洗

首先说一下文本分析流程:

本系列所有大框架内容:

NLP学习-分词:https://blog.csdn.net/RHJlife/article/details/104748790

NLP学习-清洗:https://blog.csdn.net/RHJlife/article/details/104834980

NLP学习-词形标准化https://blog.csdn.net/RHJlife/article/details/104835785

NLP学习-文本特征向量化:https://mp.csdn.net/console/editor/html/104893608

NLP学习-建模:暂无

本文将介绍文本分析过程中的文本清洗相关内容。

先说一个关于数据清洗的内容:

数据重复处理

  1. 数据错误处理
  2. 数据缺失处理
  3. 数据异常处理

对于我们使用的数据(包括文本、图像、数字信息等)以上操作是必不可少的,但是在文本清洗过程中还需要一些和文本相关的清洗操作,如下:

  1. 无用信息的清理
  2. 特殊文本的清理
  3. 停用词的处理

1.无用信息的清理:

  • 我们爬去的数据可能带有html或者url标签,这些标签往往都是无用数据
  • 在我们的数据中可能有一些长文本或者长字符串,例如电话号码等也可能是无用信息
  • 其中还有许多对于模型训练没有任何作用的文本信息,例如某些广告等也可能是无用信息

2.特殊文本的清理:

变形词是一些符号不同,但意义相同的的,这类词增加了涉黄涉政等特殊的文本分类场景下的分类难度,如下:

  • 特殊符号替换(对于有实际意义的可以替换成相应的语义,无太大实际意义也可以直接去掉(认为成停用词))
  • 同音近音近型替换(going、went、go->go)(有一种说法是往往英语需要,而中文一般不需要,可自行了解一下~)(实际上的实现是有一定难度的,清洗后面的标准化也是讲解这一方面的~)
  • 简繁体替换等(我愛中國->我爱中国)

3.停用词的处理:

停用词是一些不包含或包含极少语义的词,另外标点符号和其他特殊符号也可以被认为是一种停用词。NLP学习中我们常常把停用词或字出现频率很低的词语给过滤掉。因为停用词和出现频率特别低的词汇对于分析往往作用不大,所以一般去掉。将停用词和出现频率特别低的词汇去掉后就可以获得一个词典—所有分词词汇的集合(无停用词和低频词)

以上就是文本清理的相关内容了~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值