1.5 自然语言处理基础——词表示与语言模型

笨笨sg

已于 2023-11-11 20:12:34 修改

阅读量205

点赞数

文章标签：自然语言处理学习笔记

于 2023-11-07 21:25:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a131529/article/details/134275368

版权

目录

1.1 词表示含义：

1.2 词表示目标：

1.3 表示词的词义的方法：

1.3.1 用一组相关的同义词（上位词）：

1.3.2 独热表示法：

1.3.3 用上下文的词间接表示：

1.3.4 词嵌入：

2 语言模型：

2.1 语言模型的含义：

2.2 所要具备的两个能力：

2.3 联合概率和条件概率的关系：

2.4 N-gram模型：

2.5 Neural模型

1 词表示：

1.1 词表示含义：

把人类的词表示为机器所能理解的词。

1.2 词表示目标：

计算词之间的相似度；
揭示词之间的关系。

1.3 表示词的词义的方法：

1.3.1 用一组相关的同义词（上位词）：

缺点：可能有些词之间有非常细微的差异；错失新的词义（需要人工进行标注）；存在主观性；数据稀疏；需要大量人工。

1.3.2 独热表示法：

缺点：

当词库中的词数量非常多时，会造成“维度灾难”。
任意两个词向量是正交的，计算出的相似度都是0，也即无法度量词语之间的相似性。

1.3.3 用上下文的词间接表示：

统计词在文章中出现的频数，然后通过频数进行计算得到相似度

缺点：存储需求大；对于频率少的词可能会产生稀疏问题。

1.3.4 词嵌入：

将每一个词都用一个词向量表示，然后映射到一个向量空间中，这样子向量空间中的每个点都可以表示一个词。

2 语言模型：

2.1 语言模型的含义：

有能力根据前文去预测下一个词是什么。

2.2 所要具备的两个能力：

计算多个词组合在一起成为一个合法句子的概率（词的联合概率）
根据前文去预测下一个词是什么（词的条件概率）

2.3 联合概率和条件概率的关系：

假设前提：一个词出现的概率只会受到他前面出现的词的影响（马尔可夫假设）。

2.4 N-gram模型：

计算下一个词可能出现的概率，在一个大规模数据集中进行统计频次，计算公式如下：

N=2->Bigram; N=3->Trigram

缺点：N一般只能选取2或者3；没有办法识别词之间的相似度（语法、语义）。

2.5 Neural模型：

不同于N-gram模型直接将词作为一个符号来看，在Neural模型中，每个词都被抽象为一个具体的低维向量，相似的词对应的向量也会比较相似。（可以运用大数据文本去对向量的权重进行不断调整）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.5 自然语言处理基础——词表示与语言模型

不同于N-gram模型直接将词作为一个符号来看，在Neural模型中，每个词都被抽象为一个具体的低维向量，相似的词对应的向量也会比较相似。缺点：可能有些词之间有非常细微的差异；将每一个词都用一个词向量表示，然后映射到一个向量空间中，这样子向量空间中的每个点都可以表示一个词。假设前提：一个词出现的概率只会受到他前面出现的词的影响（马尔可夫假设）。统计词在文章中出现的频数，然后通过频数进行计算得到相似度。缺点：任意两个词向量是正交的，计算出的相似度都是0.把人类的词表示为机器所能理解的词。
复制链接

扫一扫

笨笨sg CSDN认证博客专家 CSDN认证企业博客

码龄2年

316: 原创

1万+: 周排名

6230: 总排名

10万+: 访问

: 等级

5336: 积分

2445: 粉丝

1952: 获赞

41: 评论

2000: 收藏

私信

关注

热门文章

分类专栏

最新评论

第8章排序
笨笨sg: 确实确实，之前没看到，已经改正
2.3+2.4 实战演练之机器阅读理解（上）（下）
笨笨sg: 好像是没有的。你可以看看https://www.bilibili.com/video/BV1ma4y1g791/?spm_id_from=333.788&vd_source=70d7223336bfa8b6218f04a90f35ad3a
第8章排序
Vanffer: 博主，请问快排的最大递归深度和最小是不是写反了啊
2.3+2.4 实战演练之机器阅读理解（上）（下）
m0_64483715: 这个有lstm吗
第7章查找
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。