【NLP笔记】文本分词、清洗和标准化

`AllureLove

已于 2024-03-14 12:24:04 修改

阅读量596

点赞数 10

分类专栏：自然语言处理文章标签：自然语言处理笔记人工智能

于 2024-03-13 19:32:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36488653/article/details/136688363

版权

自然语言处理专栏收录该内容

16 篇文章 0 订阅

订阅专栏

文章目录

文本分词
文本清洗和标准化

文本分词

参考文章：一文看懂NLP里的分词（中英文分词区别+3 大难点+3 种典型方法）;

文本分词处理NLP的基础，先通过对文本内容进行分词、文本与处理（无用标签、特殊符号、停用词、大写转小写）、向量化等操作，然后才能够作为各种算法的输入，分词一直是 NLP 的基础，但是现在也不一定了，不过在一些特定任务中，分词还是必要的。如：关键词提取、命名实体识别等，感兴趣的可以看看这篇论文：Is Word Segmentation Necessary for Deep Learning of Chinese Representations?

中文分词

英文分词

代码示例

文本分词：自然语言处理（NLP）（一）文本预处理篇之分词、向量表示和特征处理;
文档分词：批量处理文件构造语料库并训练Doc2Vec模型（基于gensim的实现）;

文本清洗和标准化

参考文档：

经分词后的文本通常包含很多冗余信息，因此需要进行数据清洗，具体包含：文本清洗（无用标签剔除、特殊符号剔除、停用词剔除、大小写转换等）和文本标准化（字符集的转换、单词的统一化、时间和日期的统一化）；

在完成具体任务时，需要根据任务目标对文本数据进行清洗，保证冗余信息的剔除。

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【NLP笔记】文本分词、清洗和标准化

文本分词实用笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。