自然语言处理词表是与语言模型

自然语言处理

如何让机器了解到词语的含义

机器了解词语的目标

计算词语之间的相似度

1. 计算词语之间的相似度

推断词语之间的关系

推断词语之间的关系

如何帮助机器了解自然语言

使用同义词与上位词来表述当前词语

 3. 使用同义词与上位词来表述当前词语
这样做会存在一些问题

 - 同义词之间会存在细微的差别
 ![同义词之间会存在细微的差别](https://i-blog.csdnimg.cn/direct/f33265796aaf487a808ca318325992ca.png)

 - 会缺失词语表达的新的意思
![会缺失词语表达的新的意思](https://i-blog.csdnimg.cn/direct/ca53329b3de14bb28554e93fec6d232c.png)

 - 主观性的问题(大多数的人为标注的)
 - 数据稀疏问题
 - 需要大量人力标注适配

利用向量的方式来表示词(词在字典中的位置)

用于表示特征之间距(个人理解用来分类的,相同类别的不同坐标之间距离是一样的即相似)
具体可以查看链接
![2. 当前的主流解决办法
问题
1. 词语词之间的正交的所以任意两个词都是同一个意思
2. 没有相似性的概念

利用词语的上下文的词来表示该词(one-hot 编码)

  • 一个词的意思可以使用上下文来表述
    一个词的意思可以使用上下文来表述
    一个词的意思可以使用上下文来表述
该方法的构建过程
 - 构建单词表
 - 单词组合后查看其在语料库中的出现次数

I like deep learing. I like NLP I enjoy flying 构建词汇表:I like deep learing NLP love flying单词组合后查看其在语料库中的出现次数

  • 将一行或列看作该单词的向量表示
    根据稠密成度计算出单词的相似性。
存在的问题
  • 由于是n*n的表格,词汇增加存储压力过大
  • 出现较少的词语信息量少

word embedding

分布式表示

利用低维向量表示出所有的词语
常用方法 Word2Vec
利用低维向量表示出所有的词语

语言模型(Language Model)

计算机利用模型来对语言进行预测
计算下一个词语的概率
计算机利用模型来对语言进行预测
词序列中联合的概率以及根据已经说过的话下一个词的概率。
在这里插入图片描述
下一个词语出现的概率仅仅跟前面一个词出现的概率相关。
得出条件概率
在这里插入图片描述
下一个词出现的概率是前面词语出现概率值积
在这里插入图片描述
只考虑相邻的四个词语(4-gram)之间的概率,利用统计之后的频率来确定下一个词。
在这里插入图片描述

  • Markov假设
    不用考虑全部的词语只需要考虑前后k个词汇的出现的概率在这里插入图片描述
N-gram出现的问题(一般为2/3-gram)
  • n较大时考虑的数据量过大
  • 存储空间较大
  • 词与词之间没有相似性利用类似one-hot统计
    在这里插入图片描述

神经网络模型(Neural Language Model)

利用分布式的表示构建前文与当前词语出现的概率
将每一个词表示成相似的向量
在这里插入图片描述
例子
拥有词汇w1,w2,w3,w4(四个单词的独热编码)

w1*Q=c1
w2*Q=c2
w3*Q=c3
w4*Q=c4

c=[c1,c2,c3,c4]
Q是一个随机矩阵

本文通过观看总结该视频得出
https://www.bilibili.com/video/BV1rS411F735/?p=5&spm_id_from=pageDriver&vd_source=35faaa186479298a87a9cbfb5d9b73fe

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值