4.1 文本预处理

最新推荐文章于 2024-05-08 06:21:40 发布

射大雕的迪西。

最新推荐文章于 2024-05-08 06:21:40 发布

阅读量2.2k

点赞数 1

分类专栏：深度学习NLP 文章标签：机器学习人工智能大数据自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47880481/article/details/106181177

版权

文本预处理

1.1 认识文本预处理

学习目标:
- 了解什么是文本预处理及其作用.
- 了解文本预处理中包含的主要环节.

文本预处理及其作用:
- 文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.

文本预处理中包含的主要环节:
- 文本处理的基本方法
- 文本张量表示方法
- 文本语料的数据分析
- 文本特征处理
- 数据增强方法

文本处理的基本方法:
- 分词
- 词性标注
- 命名实体识别

文本张量表示方法:
- one-hot编码
- Word2vec
- Word Embedding

文本语料的数据分析:
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云

文本特征处理:
- 添加n-gram特征
- 文本长度规范

数据增强方法:
- 回译数据增强法

重要说明:
- 在实际生产应用中, 我们最常使用的两种语言是中文和英文, 因此, 文本预处理部分的内容都将针对这两种语言进行讲解.

1.2 文本处理的基本方法

学习目标:
- 了解什么是分词, 词性标注, 命名实体识别及其它们的作用.
- 掌握分词, 词性标注, 命名实体识别流行工具的使用方法.

什么是分词:
- 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.

举个栗子:

工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作

==>

['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

最低0.47元/天解锁文章

射大雕的迪西。

关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
4.1 文本预处理

文本预处理1.1 认识文本预处理学习目标: 了解什么是文本预处理及其作用. 了解文本预处理中包含的主要环节. 文本预处理及其作用: 文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标. 文本预处理中包含的主要环节: 文本处理的基本方法文本张量表.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。