NLP-Tfidf/词向量

最新推荐文章于 2022-07-13 14:11:59 发布

Swayzzu

最新推荐文章于 2022-07-13 14:11:59 发布

阅读量1.6k

点赞数 2

分类专栏： NLP 文章标签：自然语言处理人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121320060

版权

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

一、TF-IDF表示法

1.词频表示句子的缺点

二、词向量

1.One-hot表示法的缺点

2.分布式表示法

3.词向量到句子向量

一、TF-IDF表示法

1.词频表示句子的缺点

TF-IDF表示法可以更好地表示句子之间的相似度。如果仅仅是通过统计词频的方式来表示一个句子的话：

可以看出，出现次数多的其实并不是很重要，有些词比如“的”“了”，其实是没有重要含义的，因此词频表示句子，不太好。

2.TF-IDF介绍

公式如下所示：

其中各个符号的含义已经表示出来。第一项依旧是考虑频率，但第二项是重点，比如：

①在一篇文档d中，w出现了2次，s出现了4次。

②我们有100篇文章（N=100），其中单词w出现在了5篇文章中，单词s出现在了90篇文章中。

那么这两个单词的TF-IDF就分别是：

2 * log(100/5) = 2log20，大概是6

4 * log(100/90) = 4log(10/9)，大概是0.4

说明，第一个单词很重要，可能是科技类文章中的“自然语言处理”，第二个单词不重要，可能是“非常”。

二、词向量

1.One-hot表示法的缺点

在NLP中，最重要的部分，是理解语义，在One-hot编码中，是无法计算出语义相似度的。无论是通过余弦相似度，还是欧式距离，都不行。

并且，One-hot表示法过于稀疏，对于中文来说，可能有十万个单词，那么单词表示的时候就会有10万维的向量。

2.分布式表示法

分布式表示法就是用指定维度的向量，在里面调整数据，从而达到表示单词的效果。这个数据通常是训练得到的，可能需要10^9或者更多的单词数据用来训练，训练的时候必须指定的就是单词的维度。

优点：

①向量长度可以自定义，通常可以根据词汇的量，定义出50/100/200/300维度的向量。

②由于每个维度都有了数据，因此可以度量单词之间的距离。

③容量大。一个100维的向量，可以表示无数个单词，即使每个位置只能取0/1，也能表达2^100个单词。而onehot只能表示100个单词。

④某种意义上，词向量代表了词的意思。

3.词向量到句子向量

①平均法则

该方法很简单，将句子包含的所有单词向量取个平均即可。比如：

"我们"：[0.1,0.2,0.1,0.3] ，"去"：0.3,0.2,0.15,0.2]，"上课"：[0.2,0.15,0.4,0.7]

平均得到：[0.2,0.18,0.22,0.4]

则“我们去上课”这句话的句子向量，就是[0.2,0.18,0.22,0.4]

②时序方式RNN，LSTM

暂时没有学到，之后深度学习涉及到之后在这里进行补充。

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

30万+: 周排名

166万+: 总排名

13万+: 访问

: 等级

1143: 积分

30: 粉丝

60: 获赞

37: 评论

427: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。