自然语言特征表示加实例演示

特征表示

对一段话的特征表示,词袋模型,TF-IDF;对词的特征表示,word2vec

词袋模型

  • 词袋模型是一种从文本中提取特征的方法。词袋是描述文档中单词出现的文本的一种表示形式。
  • 词袋假定对于一个文本,忽略词序和语法,句法,仅仅看做一个词集合,文本中每个词的出现都是独立的,不依赖其他词是否出现。

举例理解词袋模型
(1)John likes to watch movies. Mary likes movies too.
(2)John also likes to watch football games.
去重并统计,产生词典
{“John”:0, “likes”:1,“watch”:2,“to”:3,“movies”:4,“also”:5,“football”:6,“games”:7,“Mary”:8,“too”:9}(自己设置的顺序)
计算机理解词,用one-hot方法
one-hot
在这里插入图片描述
在这里插入图片描述
最后一行sentence就是词袋模型,就是通过词典得出句子的词袋模型。

词频-逆文本频率(TF-IDF)

TF是词频,IDF是逆文档词频
TF=某个词在文章中出现次数/文章总词数
IDF=log(语料库文档总数/(包含该词的文档数+1))
TF-IDF=词频(TF)*逆文档频率(IDF)
在这里插入图片描述
IDF中+1为了防除零报错,log是平滑操作。
如词频很高的“的地得”,其逆文档频率就很低接近0,
而词频较低的“科技”,其逆文档频率就较高。
二者相乘的值来体现词的重要性。

余弦相似度

两个向量计算夹角的余弦值
越接近1说明相似度越高

词向量word2vec

实例:电商标题相似度匹配

在电商平台,输入想要查找的商品名称,进而可以得到相似度最高的商品。简易实现流程图如下,

Created with Raphaël 2.2.0 开始 目标数据 分词 词袋模型+TF-IDF 入TF-IDF库进行匹配 相关行信息 入中文库进行提取 匹配结果 结束
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值