特征表示
对一段话的特征表示,词袋模型,TF-IDF;对词的特征表示,word2vec
词袋模型
- 词袋模型是一种从文本中提取特征的方法。词袋是描述文档中单词出现的文本的一种表示形式。
- 词袋假定对于一个文本,忽略词序和语法,句法,仅仅看做一个词集合,文本中每个词的出现都是独立的,不依赖其他词是否出现。
举例理解词袋模型
(1)John likes to watch movies. Mary likes movies too.
(2)John also likes to watch football games.
去重并统计,产生词典
{“John”:0, “likes”:1,“watch”:2,“to”:3,“movies”:4,“also”:5,“football”:6,“games”:7,“Mary”:8,“too”:9}(自己设置的顺序)
计算机理解词,用one-hot方法。
one-hot
最后一行sentence就是词袋模型,就是通过词典得出句子的词袋模型。
词频-逆文本频率(TF-IDF)
TF是词频,IDF是逆文档词频
TF=某个词在文章中出现次数/文章总词数
IDF=log(语料库文档总数/(包含该词的文档数+1))
TF-IDF=词频(TF)*逆文档频率(IDF)
IDF中+1为了防除零报错,log是平滑操作。
如词频很高的“的地得”,其逆文档频率就很低接近0,
而词频较低的“科技”,其逆文档频率就较高。
二者相乘的值来体现词的重要性。
余弦相似度
两个向量计算夹角的余弦值
越接近1说明相似度越高
词向量word2vec
实例:电商标题相似度匹配
在电商平台,输入想要查找的商品名称,进而可以得到相似度最高的商品。简易实现流程图如下,