自然语言处理（NLP）神经网络的数据预处理步骤

SEU-WYL

于 2024-05-24 01:07:47 发布

阅读量674

点赞数 3

分类专栏：深度学习dnn 文章标签： dnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42605076/article/details/139160803

版权

深度学习dnn 专栏收录该内容

118 篇文章 0 订阅

订阅专栏

1. 文本清理（Text Cleaning）

目的：去除文本中的噪音和无关内容，确保输入数据的质量和一致性。

方法：

去除标点符号：删除文本中的标点符号（视任务需求，某些标点符号可能保留）。
转换大小写：将所有文本转换为小写，减少同一个词的不同形式（如“Cat”和“cat”）带来的影响。
去除停用词：删除常见的停用词（如“the”、“is”、“and”），这些词对语义贡献较小。
删除空白和特殊字符：去除多余的空格、换行符和特殊字符。

2. 标记化（Tokenization）

目的：将文本划分为单词或子词单位（tokens），这些单位是模型的基本输入。

方法：

单词级标记化：将文本分割成单词，如“Natural language processing”变成[“Natural”, “language”, “processing”]。
子词标记化：使用BPE（Byte Pair Encoding）或WordPiece等算法，将单词进一步分解成更小的单元，处理未见过的单词更灵活。

3. 词汇表构建（Vocabulary Building）

目的：创建一个词汇表，将所有标记化后的单位映射到唯一的索引。

方法：

词汇表大小：设定一个固定的词汇表大小，如10,000个词，词频较低的词汇可以统一映射为特殊标记（如<UNK>）。
包含特殊标记：词汇表中通常包含特殊标记，如<PAD>（填充）、<SOS>（序列开始）、<EOS>（序列结束）。

4. 词嵌入（Word Embedding）

目的：将离散的词汇转换为连续的向量表示，捕捉词汇间的语义关系。

方法：

预训练词嵌入：使用预训练的词嵌入模型，如Word2Vec、GloVe、FastText等，将词汇映射到高维向量。
自训练词嵌入：在模型训练过程中，同时学习词汇的向量表示。

5. 序列填充和截断（Padding and Truncation）

目的：确保所有输入序列长度一致，便于批量处理。

方法：

填充：对较短的序列在末尾添加<PAD>标记，扩展到固定长度。
截断：对超过固定长度的序列进行截断，只保留前面的部分。

6. 生成注意力掩码（Attention Masking）

目的：在处理可变长度输入时，忽略填充部分，确保模型只关注有效部分。

方法：创建一个与输入序列长度相同的掩码，填充部分为0，有效部分为1，指导模型计算注意力权重时忽略填充部分。

7. 词干提取和词形还原（Stemming and Lemmatization）

目的：将单词还原到其基本形式，减少词形变化的影响。

方法：

词干提取：通过简单规则去掉单词的词尾，使其变成词干形式，如“running”变成“run”。
词形还原：使用词典和语言学规则，将单词还原到其基本形式，如“better”还原为“good”。

8. 字符级预处理（Character-level Processing）

目的：在处理细粒度任务（如拼写纠错、生成任务）时，直接处理字符级别的信息。

方法：将文本分割成单个字符，构建字符级词汇表，并生成字符序列。

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（NLP）神经网络的数据预处理步骤

创建一个与输入序列长度相同的掩码，填充部分为0，有效部分为1，指导模型计算注意力权重时忽略填充部分。：将文本划分为单词或子词单位（tokens），这些单位是模型的基本输入。：在处理可变长度输入时，忽略填充部分，确保模型只关注有效部分。：去除文本中的噪音和无关内容，确保输入数据的质量和一致性。：将离散的词汇转换为连续的向量表示，捕捉词汇间的语义关系。：将文本分割成单个字符，构建字符级词汇表，并生成字符序列。：创建一个词汇表，将所有标记化后的单位映射到唯一的索引。：确保所有输入序列长度一致，便于批量处理。
复制链接

扫一扫

专栏目录

SEU-WYL CSDN认证博客专家 CSDN认证企业博客

码龄6年

180: 原创

3285: 周排名

8028: 总排名

14万+: 访问

: 等级

4206: 积分

2122: 粉丝

2207: 获赞

30: 评论

1378: 收藏

私信

关注

热门文章

分类专栏

深度学习dnn 118篇
blender 14篇
meshlab 53篇
OpenCV RISC-V
python 1篇
机械 2篇
机器人 2篇
嵌入式图像 1篇
microPython 1篇
嵌入式深度学习 1篇
adams 1篇
ros 1篇

最新评论

图像处理神经网络数据预处理步骤的详细解释和分析
ha_lydms: 真实一篇超高质量文章，内容详细且条理清晰👍
平均召回（Average Recall，AR）概述
小魏冬琅: 我觉得这篇文章对平均召回（AR）的解释非常清晰，结构严谨，涵盖了从基本概念到实际应用各个方面。对于目标检测领域的初学者或从业者，有很好的指导价值。虽然主要是基础内容介绍，但对我来说已经很有收获了。如果能添加实际案例和代码实现会更好。总的来说，非常感谢作者的分享。
meshlab制作具有UV纹理图的物体模型
SEU-WYL: 这是效果最高的基于blender的UV纹理展开，可以放弃meshlab的了：https://blog.csdn.net/weixin_42605076/article/details/139640005?spm=1001.2014.3001.5501
meshlab制作具有UV纹理图的物体模型
SEU-WYL: 这是效果最高的基于blender的UV纹理展开，可以放弃meshlab的了：https://blog.csdn.net/weixin_42605076/article/details/139640005?spm=1001.2014.3001.5501
meshlab制作具有UV纹理图的物体模型
SEU-WYL: 用blender的uv展开

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。