1. 自然语言处理NLP-数据预处理

HaileeRPIJNU

已于 2023-05-26 17:04:18 修改

阅读量2.1k

点赞数

分类专栏：机器学习与深度学习 # 自然语言处理文章标签：自然语言处理人工智能

于 2023-05-26 16:36:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HaileeRPIJNU/article/details/130889819

版权

机器学习与深度学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

自然语言处理

3 篇文章 0 订阅

订阅专栏

NLP任务预处理的流程包括： 收集语料库、文本清洗、分词、去掉停用词、标准化和特征提取等。

（1）收集语料库

（2）清洗数据

eg：删除所有不相关的字符，例如非字母数字字母

（3）分词

英文：词性还原（does转为do）；词干提取（cities转为city）

中文：粒度（中国科学技术大学、中国\科学技术\大学）

中文难度更高，没有统一的标准、歧义词难以区分、新词难以识别

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。其中典型的代表就是jieba分词，一个热门的多语言中文分词包。

（4）标准化

标准化是为了给后续的处理提供一些必要的基础数据，包括：去掉停用词、二次采样、词汇表等等。

去掉停用词：删除and 、is、a等词的过程。

二次采样：每个词有一定概率会被丢弃，越高频的词被丢弃的概率越大（eg：the、a、in）

词汇表：是为语料库建立一个所有不重复词的列表，每个词对应一个索引值，并索引值不可以改变。

（5）特征提取

将原始数据提取为具体特征（已被整理可直接使用），主要是两种：统计和embedding。

（1）将词转化为一个向量，eg:One-Hot编码。但是由于非常稀疏，且缺少语义信息，所以才有word2vec

比如：我、爱、自然、语言、处理

转化为：

我： [1, 0, 0, 0, 0]

爱： [0, 1, 0, 0, 0]

自然：[0, 0, 1, 0, 0]

语言：[0, 0, 0, 1, 0]

处理：[0, 0, 0, 0, 1]

（2）提取中心词和背景词。在word2vec中使用。

在整数1和max_window_size(最大背景窗口)之间随机均匀采样一个整数作为背景窗口大小。

（6）负采样或softmax来近似训练。在word2vec中使用。

降低生成给定词汇条件概率的复杂程度。

（7）读取数据集

随机小批量进行读取（从数据集中提取所有中心词，以及每个中心词对应的背景词和噪声词）

引用：(173条消息) [深度学习] 自然语言处理 --- NLP入门指南_不算晚的晴天的博客-CSDN博客

动手学深度学习李沐

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。