文本的表示
词表示法
(一)one-hot方法
出现设置为1,未出现设为0
向量长度=词典大小
(二)词向量
one-hot方法无法实现求词之间的相似度
这里引入一种新方法:分布式表示方法(distribute representation),该方法特点:
(1)长度不依赖词典长度
(2)每个词都有一个非0的数值
(3)解决了one-hot方法中稀疏性(sparsity)的问题
词向量(word to vector)就是一种分布式表示方法
我们需要定义它的维度,通过训练深度学习的模型(skip- gram、Glove、CBow…)可以帮助我们训练出词向量;【后续笔记会整理这几种具体的模型】
词向量笔记
句子表示方法
( 一)boolean方法:
未出现的词对应位置设为0,出现设为1
(二)count 方法(考虑了词的频率):
(要记录出现的频率) 未出现的词对应位置设为0,出现设为出现的频数
(三)TF-IDF(考虑了词的重要性)
TF-IDF的核心思想
并不是出现的越多就越重要;并不是出现的越少就越不重要
TF-IDF是什么
TF(Term Frequency,词频):表示一个给定词语w在一篇给定文档d中出现的频率
IDF(Inverse Document Frequency,逆向文件频率):log(N/N(w))
N:语料库中文档总数
N(w):词语w出现在多少文档中
求相似度方法:
(一)欧氏距离
d=|s1 - s2|
距离越小,相似度越大
(二)余弦相似度(考虑了向量的方向)
d=s1·s2 / |s1| |s2|
d越大,相似度越大