word2vex学习

    中文文本转向量

        首先介绍One-hot词向量方法:简单来讲,获取所有文本的词生成一个索引序列,一般索引序列的大小就是文本向量的大小,当然也可以去除词频比较低的词,生成一个指定大小的向量。

 举个例子:(1)我在回家的路上。(2)我回家之后打游戏。

分词之后生成索引序列为   [回家,我,在,的,路上,之后,打,游戏]

文本(1)转为向量为(1,1,1,1,1,0,0,0)

文本(2)转为向量为 (1,1,0,0,0,1,1,1)

       One-hot向量存在两大缺陷:(1)词与词之间的关系是相互独立的,仅从向量中看不出两个词是否有关系。

(2)“维度灾难”,随着词数量的增加,生成文本向量的维度也会增加。

 

        下面来介绍一下Word2Vec词向量表示法,它克服了one-hot编码的两大缺陷,优势在于将每一个词映射为一个固定长短的向量。

 

以下内容还在进一步学习。

        Word2Vec算法原理:参考:https://blog.csdn.net/mpk_no1/article/details/72458003

CBOW模型在随机给出周围词向量的情况下,计算为该词的概率。通过使这个概率最大化,不断更新向量和。最终周围词的词向量 = 随机词向量 + 更新后的向量和。

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值