NLP学习-清洗

最新推荐文章于 2024-07-20 19:16:01 发布

任菜菜学编程

最新推荐文章于 2024-07-20 19:16:01 发布

阅读量1.4k

点赞数 2

分类专栏： NLP 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RHJlife/article/details/104834980

版权

人工智能同时被 2 个专栏收录

67 篇文章 11 订阅

订阅专栏

28 篇文章 13 订阅

订阅专栏

首先说一下文本分析流程：

本系列所有大框架内容：

NLP学习-分词：https://blog.csdn.net/RHJlife/article/details/104748790

NLP学习-清洗：https://blog.csdn.net/RHJlife/article/details/104834980

NLP学习-词形标准化：https://blog.csdn.net/RHJlife/article/details/104835785

NLP学习-文本特征向量化：https://mp.csdn.net/console/editor/html/104893608

NLP学习-建模：暂无

本文将介绍文本分析过程中的文本清洗相关内容。

先说一个关于数据清洗的内容：

数据重复处理

数据错误处理
数据缺失处理
数据异常处理

对于我们使用的数据（包括文本、图像、数字信息等）以上操作是必不可少的，但是在文本清洗过程中还需要一些和文本相关的清洗操作，如下：

无用信息的清理
特殊文本的清理
停用词的处理

1.无用信息的清理：

我们爬去的数据可能带有html或者url标签，这些标签往往都是无用数据
在我们的数据中可能有一些长文本或者长字符串，例如电话号码等也可能是无用信息
其中还有许多对于模型训练没有任何作用的文本信息，例如某些广告等也可能是无用信息

2.特殊文本的清理：

变形词是一些符号不同，但意义相同的的，这类词增加了涉黄涉政等特殊的文本分类场景下的分类难度，如下：

特殊符号替换（对于有实际意义的可以替换成相应的语义，无太大实际意义也可以直接去掉（认为成停用词））
同音近音近型替换（going、went、go->go）（有一种说法是往往英语需要，而中文一般不需要，可自行了解一下～）（实际上的实现是有一定难度的，清洗后面的标准化也是讲解这一方面的～）
简繁体替换等（我愛中國->我爱中国）

3.停用词的处理：

停用词是一些不包含或包含极少语义的词，另外标点符号和其他特殊符号也可以被认为是一种停用词。NLP学习中我们常常把停用词或字出现频率很低的词语给过滤掉。因为停用词和出现频率特别低的词汇对于分析往往作用不大，所以一般去掉。将停用词和出现频率特别低的词汇去掉后就可以获得一个词典—所有分词词汇的集合（无停用词和低频词）

以上就是文本清理的相关内容了～

任菜菜学编程

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。