NLP（四）词向量

最新推荐文章于 2021-11-28 12:00:00 发布

优雅一只猫

最新推荐文章于 2021-11-28 12:00:00 发布

阅读量234

点赞数

分类专栏： NLP 文章标签： NLP 词向量

本文链接：https://blog.csdn.net/weixin_41492426/article/details/90312084

版权

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

词向量

关于word2vec的原理网上很详细了
本文代码共2种词向量转换方式

1、独热编码
2、word2vec

1、独热编码

from sklearn.preprocessing import LabelEncoder
one-hot = LabelEncoder()
# 输入为列表好像也可以
word_vector = one-hot.fit_transform(df[‘列名’].values)

2、word2vec

import numpy as np
import gensim

X_train = ['字符串1', ‘字符串2’]
#输出是一个字典, key是词, 值是长度为size的列表
word2vec = gensim.models.Word2Vec(X_train, min_count =2, window=5, size=30)

def sent2vec(words):
    words = [w for w in words]
    vector = []
    # 转换为数组
    for w in words:
        try:
            M.append(model[w])           
        except:
            continue
    # 此时的数组是(n, size), n是words的词数
    vector  = np.array(vector)
    # 要把(n,size)-> (1,size)
    # 对每一列求和后标准化
    v = vector.sum(axis=0)
    return v / np.sqrt((v ** 2).sum())

参考资料:
https://www.kesci.com/home/project/5cbd99578c90d7002c81b52c

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

优雅一只猫

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP（四）词向量

词向量关于word2vec的原理网上很详细了本文代码共2种词向量转换方式1、独热编码2、word2vec1、独热编码from sklearn.preprocessing import LabelEncoderone-hot = LabelEncoder()# 输入为列表好像也可以word_vector = one-hot.fit_transform(df[‘列名’].values...
复制链接

扫一扫