用gensim实现word2vec 和 glove

本篇讲讲gensim的word2vec模型的使用以及 glove模型用gensim来实现!

首先我们来讲word2vec,  刚开始接触的时候比较迷糊, 我是从tensorflow的神经网络切入的,了解了one-hot 知道要将word 转换成向量才能作为tensor的输入,因此之前的文章也专门写了怎么将word 转换成是很tensor输入格式的操作.网络上大部分文章都会很详尽的讲述了word2vec的原理, CBOW 和 SKIP-GRAW是word2vec的两种基本模型,前者是以周边词预测中间词,后者是以中间词预测周边词.具体原理本文就不在讲述了.总而言之 word2vec 是一种将word转换成词向量的方法,  你可以用tensorflow来实现,也可以用现成的 gensim来实现.  gensim中已经将word2vec训练好了,你只需要将语料传入gensim定义好的方法中,则无需再设计什么神经网络的框架,gensim内部已经定义了一套完整的框架来训练你传入的语料,当然 window_size 这样的参数是要自己传入的!

话不多说我们上代码:

import jieba
from gensim.models import word2vec
#对你的语料进行分词, 目前用的是jieba分词,为什么要进行分词? 因为中文语意强大,因此进行分词能够更好的将有意义的词放在一起
#如果你对你的分词结果不满意,也可以认为干预, 比如用jieba.suggest_freq()函数来制定某些分词

def jieba_cut(filename, cut_filename):

    with open(filename, 'rb') as f:
        mycontent = f.read()
        jieba_content = jieba.cut(mycontent, cut_all=False)
        final_file = ' '.join(jieba
  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值