NLP(四)词向量

词向量

关于word2vec的原理网上很详细了
本文代码共2种词向量转换方式

1、独热编码
2、word2vec

1、独热编码

from sklearn.preprocessing import LabelEncoder
one-hot = LabelEncoder()
# 输入为列表好像也可以
word_vector = one-hot.fit_transform(df[‘列名’].values)

2、word2vec

import numpy as np
import gensim

X_train = ['字符串1', ‘字符串2’]
#输出是一个字典, key是词, 值是长度为size的列表
word2vec = gensim.models.Word2Vec(X_train, min_count =2, window=5, size=30)

def sent2vec(words):
    words = [w for w in words]
    vector = []
    # 转换为数组
    for w in words:
        try:
            M.append(model[w])           
        except:
            continue
    # 此时的数组是(n, size), n是words的词数
    vector  = np.array(vector)
    # 要把(n,size)-> (1,size)
    # 对每一列求和后标准化
    v = vector.sum(axis=0)
    return v / np.sqrt((v ** 2).sum())

参考资料:
https://www.kesci.com/home/project/5cbd99578c90d7002c81b52c

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值