3、自然语言处理基础——词表示

一、词表示定义

通过将我们人类的单词转化成机器能理解的意思
当计算机理解了词的意思后,希望计算机拥有以下两种能力:
1、计算词之间的相似度
在这里插入图片描述

2、推断词之间的联系
在这里插入图片描述

One-Hot Representation

将词转化成向量表示
在这里插入图片描述
可以很方便的计算两个文档之间的相似度。
但是任意两个词的向量都正交,导致任意两个词的相似度计算都为0

Represent Word by Context

通过上下文来表示一个词
在这里插入图片描述
比如starts,通过计算上下文中每个词出现的次数(重要性),通过这个频次我们可以构造向量,然后通过向量去计算任意两个词之间的相似度
但是需要存储的空间变大,并且由于有些词出现少,他的上下文也少,就导致他的向量很稀疏

Word Embedding

建立一个低维的向量空间,尝试把每一个词都学习到这个空间里面,用空间中的位置表示词。
这种低维向量是可以利用大规模数据自动学习
eg:Word2Vec

二、语言模型

语言模型就是根据前文预测下一个词是什么

两个能力:

(1)计算多个单词连成一句话的概率,让人读起来更通顺
在这里插入图片描述

(2)根据前文的多个单词推测下一个单词
在这里插入图片描述

公式表示

在这里插入图片描述
eg:在这里插入图片描述

构建语言模型

N-gram Model

eg:4-gram 即在大规模数据集中,统计已经出现的连续三个词,后面出现第四个词的概率
在这里插入图片描述
存在问题:
在这里插入图片描述

Neural Language Model

借助了深度学习的知识
在这里插入图片描述
1、将每个词学习到低维空间,用低维空间中的向量表示。
2、通过上下文来推断下一个词是什么
比如这里考虑了三个词,将这三个词转化为向量表示,然后组成一个更大的项链,通过 tanh激活函数,来预测下一个词是什么。

三、论文阅读

A Neural Probabilistic Language Model

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值