十六、词向量总结

最新推荐文章于 2024-08-21 11:18:36 发布

智享AI

最新推荐文章于 2024-08-21 11:18:36 发布

阅读量678

点赞数

分类专栏：深度学习文章标签：自然语言处理深度学习机器学习

本文链接：https://blog.csdn.net/guangzhanblog/article/details/121870660

版权

深度学习专栏收录该内容

34 篇文章 7 订阅

订阅专栏

词向量总结

1. 基于离散的词向量表示方法

1.1 单词的向量化

One-Hot编码：每一个词使用一个长度为N的向量表示，N表示词典的数量。假设我们有一个文档：深度学习，那么进行one-hot处理后的结果如下：

1.2 文本的向量化

词袋模型：使用词频作为文本的向量表示.
TF-IDF：使用词权重作为文本的向量表示.
词汇表：{'orange':3，‘banana’:1，‘apple’:0, 'grape':2}

1.3 词向量表示方法的缺点

无法衡量词向量之间的关系
词表维度随着语料库增长膨胀
数据稀疏问题

2. 基于分布式的词向量表示方法

2.1 分布式的词向量表示方法

CBOW：根据上下文预测中心词
Skip-Gram：根据中心词预测上下文

2.2 分布式的词向量表示的优缺点

优点：
- 由于 Word2vec 会考虑上下文，比之前的方法维度更少，所以速度更快.
- 通用性很强，可以用在各种 NLP 任务中.
缺点：
- 由于词和向量是一对一的关系，所以多义词的问题无法解决.
- Word2vec 是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化.

2.3 Word Embeding的表示

Word Embedding使用了浮点型的稠密句子表示词向量.
形象的表示就是：

2.4 Word Embedding的实现过程

首先把单词使用数字来表示，再把数字使用向量来表示.
单词–>数字----->向量：

在这里插入图片描述

2.5 Wode Embeding数据的形状变化

在这里插入图片描述

2.6 完整代码

# coding:utf-8

from sklearn.feature_extraction.text import CountVectorizer
import torch
from torch import nn as nn

texts = ["orange banana apple grape dineapple",
         ] # 语料库

cv = CountVectorizer() # 词袋模型对象
cv_fit = cv.fit_transform(texts) # 完成文本到向量的表示
print(cv.vocabulary_) # 词汇表
print(cv_fit.toarray()) # 文本向量表示的数组格式

"""
词向量
"""
# Embedding(num_embeddings,embedding_dim)
embedding = nn.Embedding(len(cv.vocabulary_), 7)  # 5个词，每个词3维
input = torch.tensor(cv_fit.toarray())

output = embedding(input)
print(output) # (4, 5, 3)
print(embedding.weight.size())