重写gensim.word2vec的文本相似度匹配函数(wmdistance)

由于在Django环境中遇到导入gensim的问题,无法使用Word2Vec的wmdistance函数,本文档介绍了如何根据gensim源码重写这个文本相似度匹配功能。
摘要由CSDN通过智能技术生成

1.为什么要重写

因为在D jango上莫名其妙的不能import gensim。
从而不能from gensim.models import Word2Vec。
不能load_model.word2vec_model.wmdistance(sentence1,sentence2)。
因此根据原码更改了引入gensim包的部分内容。

2.改写后的代码

import pyemd
from gensim.corpora.dictionary import Dictionary
from numpy import exp, log, dot, zeros, outer, random, dtype, float32 as REAL,\
    double, uint32, seterr, array, uint8, vstack, fromstring, sqrt, newaxis,\
    ndarray, empty, sum as np_sum, prod, ones, ascontiguousarray
from keras.models import load_model
import cPickle as pickle

import logging

logger = logging.getLogger(__name__)
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


def sentence_distance(document1, document2):
    len_pre_oov1 = len(document1)
    len_pre_oo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值