NLP
YasinQiu
一条游向cs的ee鱼.
展开
-
[NLP] 中文文本相似度实战
原文: https://blog.csdn.net/github_36326955/article/details/54891204 1. 计算文本相似度的常用算法 (1) 基于词向量: 余弦相似度, 曼哈顿距离, 欧几里得距离, 明式距离(是前两种距离测度的推广) (2) 基于字符: 编辑距离, simhash(适用于海量数据), 共有字符数(有点类似 onehot 编码, 直接统计两...原创 2018-04-07 18:45:32 · 7114 阅读 · 1 评论 -
[NLP] word2vec
word2vec简介 作用: 将自然语言中的字词转为计算机可以理解的稠密向量. 在word2vec之前曾经用one-hot来表示字词, 比如: 杭州 [0,0,0,0,0,0,0,1,0,……,0,0,0,0,0,0,0] 上海 [0,0,0,0,1,0,0,0,0,……,0,0,0,0,0,0,0] 宁波 [0,0,0,1,0,0,0,0,0,……,0,0,0,0,0,0,0] 北京 ...原创 2018-04-24 12:38:18 · 182 阅读 · 0 评论