词嵌入

最新推荐文章于 2024-02-24 20:00:43 发布

宁缺100

最新推荐文章于 2024-02-24 20:00:43 发布

阅读量413

点赞数 1

分类专栏：自然语言处理 DL 文章标签：自然语言处理深度学习 word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24434491/article/details/105026904

版权

DL 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

自然语言处理

11 篇文章 0 订阅

订阅专栏

概要

词嵌入是单词的一种数值化表示方式，一般情况下会将一个单词映射到一个高维的向量中（词向量）来代表这个单词。例如我们将：机器学习’表示为 [1,2,3]

词向量可以用余弦相似度来计算单词之间的距离

余弦相似度

TF-IDF

用于信息检索和数据挖掘常用算法，挖掘文章中的关键词，而且算法简洁高效，工业上用于对文本数据清洗
TF Term Frequency 词频
IDF Inverse Document Frequency 逆文档频率

$IDF(\text{单词})=log\frac{\text{语料库的文档总数}}{\text{包含单词的文档总数+1}}$

计算步骤

计算词频
计算逆文档频率越常见越接近0
计算TF-IDF 词频*逆文档频率

TF-IDF 与单词在文档中出现频率成正比和单词在语料库中出现频率成反比

优点

简单快捷，便于理解

缺点

单词在文档中的重要程度不全在出现频率上，有的单词出现很少但是很重要，考虑用词嵌入

词嵌入

词嵌入实际上是一种将各个单词在预定的向量空间中表示为实值向量的一类技术。每个单词被映射成一个向量（初始随机化），并且这个向量可以通过神经网络的方式来学习更新。因此这项技术基本集中应用与深度学习领域。

关键点在于如何用密集的分布式向量来表示每个单词。这样做的好处在于与one-hot这样的编码对比，使用词嵌入表示的单词向量往往只有几十或者几百个维度。极大的减少了计算和储存量。

将词汇表中的每个词与分布式词特征向量相关联…特征向量表示词的不同方面特征，每个词与向量空间中的点相关联。特征的数量…远小于词汇的大小

— A Neural Probabilistic Language Model, 2003.

分布式的词向量表示方式依赖于单词的使用习惯，这就使得具有相似使用方式的单词具有相似的表示形式。

词嵌入技术

Embedding Layer
Word2Vec
GloVe

Word2Vec模型

word2vec 核心思想：当前单词是从周边单词的隐含表达

word2vec 包含两个模型

SG(skip-gram) :输入一个词输出这个词周边的词
CBOW(Continuous-Bag-of-Word):输入一组词希望能通过这组词得到中间某个词的预测

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词嵌入

概要词嵌入是单词的一种数值化表示方式，一般情况下会将一个单词映射到一个高维的向量中（词向量）来代表这个单词。例如我们将：机器学习’表示为 [1,2,3]词向量可以用余弦相似度来计算单词之间的距离余弦相似度词嵌入词嵌入实际上是一种将各个单词在预定的向量空间中表示为实值向量的一类技术。每个单词被映射成一个向量（初始随机化），并且这个向量可以通过神经网络的方式来学习更新。因此这项技术基...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。