Doc2vec 使用小结

"生物沙文主义,在这样一个小范围中,如果它影响到对知识的处理,是可笑的。将任何你担忧的专家交给我,我就会将他的价值发挥到最基本机魂的十倍以上。"
——摘录自《组织思想的问题》,第七章

 

doc2vec继承自word2vec。比起word2vec,doc能更好的使用文章或短句来进行训练与建模。

和word2vec不同,doc2vec需要每次把训练短句的tag作为值传入

TaggededDocument = gensim.models.doc2vec.TaggedDocument
model = gensim.models.Doc2Vec(size=contact_word_num,dm=1, window=1, min_count=1, workers=10) #dm=0-distributed bag of words; dm=1-distributed memory
if os.path.exists(save_path):
    model = gensim.models.Doc2Vec.load(save_path)


#储存分词,用来训练
sentence_cut_list = []

#根据excel的短句学习
def learn_excel_word():

    global sentence_cut_list

    sheet_name = sheet_names[0]
    sheet_ = workbook.sheet_by_name(sheet_name)

    for docIndex_ in MaxWordCount:
        #获取到词库里面的词
        text_ = sheet_.row_values(index_)[0].encode("utf-8")

        word_
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值