NLP学习笔记＜2＞

最新推荐文章于 2023-06-16 14:09:45 发布

Victory_Ego

最新推荐文章于 2023-06-16 14:09:45 发布

阅读量438

点赞数

分类专栏： NLP 文章标签：自然语言处理机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62089933/article/details/120580957

版权

目录

2.1 文本的表示

2.1.1词的独热表示（One-hot Encoding）

2.1.2词的分布式表示

2.1.3词嵌入表示（Word Embedding）

2.1.4文本的词袋表示

2.2 自然语言处理任务

2.2.1语言模型

2.2.2自然语言处理基础任务

2.2.3自然语言处理应用任务

2.3 基本问题

2.3.1文本分类问题

2.3.2结构预测问题

2.3.3Seq2Seq问题

2.1 文本的表示

如何处理语言在计算机的存储和计算问题，是进行自然语言处理的第一步。朴素的基于规则的方法会导致资源的消耗和规则表达能力有限的情况。为了解决这些问题，基于机器学习的自然语言处理技术应运而生，其最本质的思想是将文本表示为向量，其中的每一位代表一个特征。利用这些值的加权求和计算，可以进行最后的判断，下面就文本的表示方法进行分析介绍。

2.1.1词的独热表示（One-hot Encoding）

所谓词的独热表示，即使用一个词表大小的向量表示一个词（假设词表为 $V$ ,则其大小为 $|V|$ ），然后将词表中的第 $i$ 个词 $w_i$ 表示为向量：

在该向量中，此表的第 $i$ 个词在第 $i$ 维上被设置为1，其余维为0。这种表达方式会因为不同词完全由不同的向量表示，所以即使两个词意相近，两个词的相似度仍会被计算为0.另外，在基于机器学习的方法时，独热模型会导致数据稀疏（Data Sparsity）,从而导致现象没有被充分学习。

为解决上述问题，一般我们通过提取更多的和词相关的泛化特征，如次性特征、词义特征和词聚类特征等，但这也使得我们大部分精力放在了挖掘有效的特征上。

2.1.2词的分布式表示

1.分布式语义假设

基本思想：考虑上下文来推断词义和相关属性。通过对词表构建共现频次表，表中的每一项代表一个词 $w_i$ 与另一个词 $w_j$ （上下文）在同一个句子中的共现频次，每个词与自身的共现频次设为0。

但会造成至少以下三个问题

1. 高频词误导计算错误 如“我”与“。”经常在句子中出现，而分布式表示会将其视为有较高相似度。

2. 共现频次无法反映词之间的高阶关系。因为我们只构建了二元的共现频次表，所以词之间传递的深层关系我们仍无法知晓。

3. 稀疏性问题，向量中仍有大量的0。

2.点互信息

为了解决高频词误导计算我们有最基本的思想：如果一个词与很多词共现，则降低其权重；反之，若一个词只与个别词共现，则提高其权重。这种思想被称作点互信息（Pointwise Mutual Information ,PMI）。

对于词w和上下文c，其PMI计算为：

其中分子分母三项分别为w与c的共现概率，以及w和c分别出现的概率。

此外可以利用最大似然估计计算p的值

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP学习笔记＜2＞

2.1 文本的表示如何处理语言在计算机的存储和计算问题，是进行自然语言处理的第一步。朴素的基于规则的方法会导致资源的消耗和规则表达能力有限的情况。为了解决这些问题，基于机器学习的自然语言处理技术应运而生，其最本质的思想是将文本表示为向量，其中的每一位代表一个特征。利用这些值的加权求和计算，可以进行最后的判断，下面就文本的表示方法进行分析介绍。2.1.1词的独热表示（One-hot Encoding）所谓词的独热表示，即使用一个词表大小的向量表示一个词（假设词表为,...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。