简单粗暴理解与实现机器学习之神经网络NN(四):词向量-word2vec、Word2Vec模型介绍、统计语言模型、神经网络语言模型NNLMNNLM、Word2Vec案例Word2vec、词向量工具使用

本文介绍了词向量的概念,包括词的独热表示和分布式表示,强调分布式表示能让相关词在向量空间中更接近。接着详细讲解了统计语言模型、N-Gram模型及其缺点,然后阐述了神经网络语言模型NNLM的原理。重点讨论了Word2Vec模型,它是通过神经网络训练得到词向量,文中提到了CBOW模型的前向计算和参数更新。此外,还探讨了Word2Vec训练中的优化技巧,如分层softmax和负采样。最后,文章提及了使用Python的gensim库和Google的word2vec工具进行词向量训练的方法。
摘要由CSDN通过智能技术生成

7.4 词向量-word2vec

学习目标

  • 目标
    • 知道统计语言模型
    • 掌握神经网络语言模型NNLM原理
    • 掌握wor2vec的实现方式以及优化特点
  • 应用

7.3.1 Word2Vec模型介绍

7.3.1.1 为什么学习词嵌入

图像和音频处理系统采用的是庞大的高维度数据集,对于图像数据来说,此类数据集会编码为单个原始像素强度的向量。不过,自然语言处理系统一直以来都将字词视为离散的原子符号,将字词表示为唯一的离散 ID 还会导致数据稀疏性,并且通常意味着我们可能需要更多数据才能成功训练统计模型。使用向量表示法可以扫除其中一些障碍。

在这里插入图片描述

  • 计算相似度
    • 寻找相似词
    • 信息检索
  • 作为 SVM/LSTM 等模型的输入
    • 中文分词
    • 命名体识别
  • 句子表示
    • 情感分析
  • 文档表示
    • 文档主题判别
  • 机器翻译与聊天机器人
7.3.1.2 词向量是什么

定义:将文字通过一串数字向量表示

  • 词的独热表示

    :One-hot Representation

    • 采用稀疏方式 存储,简单易实现
    • 灯泡:[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0]、灯管:[0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0]

维度过大词汇鸿沟现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系,哪怕”灯泡”和”灯管”这两个词是同义词也不行

  • 词的分布式表示

    :Distributed representation

    • 传统的独热表示( one-hot representation)仅仅将词符号化,不包含任何语义信息
    • Distributed representation 最早由 Hinton在 1986 年提出。它是一种低维实数向量,这种向量一般长成这个样子: [0.792, −0.177, −0.107, 0.109, −0.542, …]
    • 最大的贡献就是让相关或者相似的词,在距离上更接近了
7.3.1.3 词向量训练来源思想-统计语言模型

统计语言模型

  • 统计语言模型: 统计语言模型把语言(词的序列)看作一个随机事件,并赋予相应的概率来描述其属于某种语言集合的可能性

注:语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否是人话的概率?

例如:一个句子由w1,w2,w3,w4,w5,…….

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值