word2vec 入门基础(一)

45 篇文章 41 订阅 ¥49.90 ¥99.00
本文介绍了word2vec的基本概念,包括CBOW和Skip-Gram模型,并深入探讨了词向量的One-hot和Distributional Representation,强调了词向量在自然语言处理中的重要性。此外,还讨论了语言模型如N-gram模型及其局限性,为初学者提供了清晰的word2vec入门指导。
摘要由CSDN通过智能技术生成

一、基本概念

word2vec是Google在2013年开源的一个工具,核心思想是将词表征映
射为对应的实数向量。

目前采用的模型有一下两种

  • CBOW(Continuous Bag-Of-Words,即连续的词袋模型)
  • Skip-Gram

项目链接:https://code.google.com/archive/p/word2vec

二、背景知识

词向量

词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量
就是把一个词表示成一个向量。这样做的初衷就是机器只认识0 1 符号,换句话说,在自然语言处理中,要想让机器识别语言,就需要将自然语言抽象表示成可被机器理解的方式。所以,词向量是自然语言到机器语言的转换。

词向量有一下两种

  • One-hot Representation

向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0, 1 的位置对应该词在词典中的位置,例如

“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

life1024

你的鼓励将是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值