NLP-相似度度量

最新推荐文章于 2022-08-25 11:31:05 发布

phyllisyuell

最新推荐文章于 2022-08-25 11:31:05 发布

阅读量401

点赞数

分类专栏： NLP必备文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/phyllisyuell/article/details/114005058

版权

本文介绍了NLP中的相似度度量方法，包括TF-IDF和Word2Vec。TF-IDF是一种统计词频的方法，用于关键词提取。Word2Vec则将单词转化为固定维度的向量。此外，还探讨了预训练模型在NLP任务中的应用，如ELMo和BERT，以及词嵌入在降低维度和提高计算效率上的优势。

摘要由CSDN通过智能技术生成

一、提取特征阶段

1、TF-IDF

简介：TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

两个重要的概念:

1) TF: 词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化（分子一般小于分母区别于IDF），以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）

考虑到文章有长短之分，可以对“词频”进行标准化处理：

或者

2）IDF: 逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

需要一个语料库（corpus），用来模拟语言的使用环境。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP-相似度度量

一、提取特征阶段1、TF-IDF简介：TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。两个重要的概念:1) TF:词频 (term frequency, TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化（分子一般小于分母区别于IDF），以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。