【NLP自然语言处理学习笔记01:文本的表示】


词表示法

(一)one-hot方法

出现设置为1,未出现设为0
向量长度=词典大小

(二)词向量

one-hot方法无法实现求词之间的相似度
这里引入一种新方法:分布式表示方法(distribute representation),该方法特点:
(1)长度不依赖词典长度
(2)每个词都有一个非0的数值
(3)解决了one-hot方法中稀疏性(sparsity)的问题

词向量(word to vector)就是一种分布式表示方法
我们需要定义它的维度,通过训练深度学习的模型(skip- gram、Glove、CBow…)可以帮助我们训练出词向量;【后续笔记会整理这几种具体的模型】
词向量笔记


句子表示方法

( 一)boolean方法:

未出现的词对应位置设为0,出现设为1

(二)count 方法(考虑了词的频率):

(要记录出现的频率) 未出现的词对应位置设为0,出现设为出现的频数

(三)TF-IDF(考虑了词的重要性)

TF-IDF的核心思想

并不是出现的越多就越重要;并不是出现的越少就越不重要

TF-IDF是什么

TF(Term Frequency,词频):表示一个给定词语w在一篇给定文档d中出现的频率
IDF(Inverse Document Frequency,逆向文件频率):log(N/N(w))
N:语料库中文档总数
N(w):词语w出现在多少文档中

在这里插入图片描述


求相似度方法:

(一)欧氏距离

d=|s1 - s2|
距离越小,相似度越大

(二)余弦相似度(考虑了向量的方向)

d=s1·s2 / |s1| |s2|
d越大,相似度越大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值