自然语言特征表示加实例演示

最新推荐文章于 2024-06-01 12:37:25 发布

LionheartHJS

最新推荐文章于 2024-06-01 12:37:25 发布

阅读量461

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42262612/article/details/94066944

版权

NLP 专栏收录该内容

2 篇文章

订阅专栏

自然语言特征表示

特征表示
实例：电商标题相似度匹配

特征表示

对一段话的特征表示，词袋模型，TF-IDF；对词的特征表示，word2vec

词袋模型

词袋模型是一种从文本中提取特征的方法。词袋是描述文档中单词出现的文本的一种表示形式。
词袋假定对于一个文本，忽略词序和语法，句法，仅仅看做一个词集合，文本中每个词的出现都是独立的，不依赖其他词是否出现。

举例理解词袋模型
(1)John likes to watch movies. Mary likes movies too.
(2)John also likes to watch football games.
去重并统计，产生词典
{“John”:0, “likes”:1,“watch”:2,“to”:3,“movies”:4,“also”:5,“football”:6,“games”:7,“Mary”:8,“too”:9}（自己设置的顺序）
计算机理解词，用one-hot方法。
one-hot
在这里插入图片描述

最后一行sentence就是词袋模型，就是通过词典得出句子的词袋模型。

词频-逆文本频率（TF-IDF）

TF是词频，IDF是逆文档词频
TF=某个词在文章中出现次数/文章总词数
IDF=log(语料库文档总数/（包含该词的文档数+1）)
TF-IDF=词频（TF）*逆文档频率（IDF）
在这里插入图片描述
IDF中+1为了防除零报错，log是平滑操作。
如词频很高的“的地得”，其逆文档频率就很低接近0，
而词频较低的“科技”，其逆文档频率就较高。
二者相乘的值来体现词的重要性。

余弦相似度

两个向量计算夹角的余弦值
越接近1说明相似度越高

词向量word2vec

实例：电商标题相似度匹配

在电商平台，输入想要查找的商品名称，进而可以得到相似度最高的商品。简易实现流程图如下，

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。