简单粗暴理解与实现机器学习之神经网络NN（四）：词向量-word2vec、Word2Vec模型介绍、统计语言模型、神经网络语言模型NNLMNNLM、Word2Vec案例Word2vec、词向量工具使用

最新推荐文章于 2024-01-09 23:42:23 发布

汪雯琦

最新推荐文章于 2024-01-09 23:42:23 发布

阅读量1.8k

点赞数 1

分类专栏：【机器学习与深度学习】文章标签：神经网络算法 python 机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35456045/article/details/104719223

版权

本文介绍了词向量的概念，包括词的独热表示和分布式表示，强调分布式表示能让相关词在向量空间中更接近。接着详细讲解了统计语言模型、N-Gram模型及其缺点，然后阐述了神经网络语言模型NNLM的原理。重点讨论了Word2Vec模型，它是通过神经网络训练得到词向量，文中提到了CBOW模型的前向计算和参数更新。此外，还探讨了Word2Vec训练中的优化技巧，如分层softmax和负采样。最后，文章提及了使用Python的gensim库和Google的word2vec工具进行词向量训练的方法。

摘要由CSDN通过智能技术生成

文章目录

7.4 词向量-word2vec
- 学习目标

7.4 词向量-word2vec

学习目标

目标
- 知道统计语言模型
- 掌握神经网络语言模型NNLM原理
- 掌握wor2vec的实现方式以及优化特点
应用
- 无

7.3.1 Word2Vec模型介绍

7.3.1.1 为什么学习词嵌入

图像和音频处理系统采用的是庞大的高维度数据集，对于图像数据来说，此类数据集会编码为单个原始像素强度的向量。不过，自然语言处理系统一直以来都将字词视为离散的原子符号，将字词表示为唯一的离散 ID 还会导致数据稀疏性，并且通常意味着我们可能需要更多数据才能成功训练统计模型。使用向量表示法可以扫除其中一些障碍。

在这里插入图片描述

计算相似度
- 寻找相似词
- 信息检索
作为 SVM/LSTM 等模型的输入
- 中文分词
- 命名体识别
句子表示
- 情感分析
文档表示
- 文档主题判别
机器翻译与聊天机器人

7.3.1.2 词向量是什么

定义：将文字通过一串数字向量表示

词的独热表示

：One-hot Representation
- 采用稀疏方式存储，简单易实现
- 灯泡:[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0]、灯管：[0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0]

维度过大词汇鸿沟现象：任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系，哪怕”灯泡”和”灯管”这两个词是同义词也不行

词的分布式表示

：Distributed representation
- 传统的独热表示（ one-hot representation）仅仅将词符号化，不包含任何语义信息
- Distributed representation 最早由 Hinton在 1986 年提出。它是一种低维实数向量，这种向量一般长成这个样子： [0.792, −0.177, −0.107, 0.109, −0.542, …]
- 最大的贡献就是让相关或者相似的词，在距离上更接近了

7.3.1.3 词向量训练来源思想-统计语言模型

统计语言模型

统计语言模型：统计语言模型把语言（词的序列）看作一个随机事件，并赋予相应的概率来描述其属于某种语言集合的可能性

注：语言模型就是用来计算一个句子的概率的模型，也就是判断一句话是否是人话的概率？

例如：一个句子由w1,w2,w3,w4,w5,…….

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。