自然语言处理
KIDGINBROOK
这个作者很懒,什么都没留下…
展开
-
jieba分词源码阅读
jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。下载jieba后,tree得到主要部分的目录树结构如下:├── jieba │ ├── analyse │ │ ├── analyzer.py │ │ ├── idf.txt │ │ ├── __init__.py │ │ ├── textrank.p原创 2016-09-14 10:56:17 · 3400 阅读 · 1 评论 -
simhash计算文本相似度
转自http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法转载 2016-09-08 22:31:33 · 2688 阅读 · 2 评论 -
LSA,pLSA原理及其代码实现
转自http://www.cnblogs.com/bentuwuying/一. LSA1. LSA原理LSA(latent semantic analysis)潜在语义分析,也被称为 LSI(latent semantic index),是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出来的一种新的索引和检索方法。该方法和传统向量空转载 2017-04-09 16:31:29 · 1970 阅读 · 0 评论 -
主题模型lda源码阅读
最近一段时间学习了主题模型,主要是plsa和lda,本来打算也写一下plsa的,不过发现网上有一篇非常好的博文就直接转载了(还是懒。。),然后就只写下lda吧。。lda的开源代码比较出名的一个是python的ariddell/lda,另一个是GibbsLDA++,这两个都大致浏览了一下。首先看下初始化部分的代码def _initialize(self, X): D, W原创 2017-04-27 14:15:10 · 2342 阅读 · 5 评论 -
annoy 源码阅读 (近似最近邻搜索 ANN)
最近工作中使用了一下annoy,于是抽时间看了下源码,记录下。。annoy支持三种距离度量方式,cos距离,欧式距离和曼哈顿距离。下面主要通过最简单的欧氏距离来看。首先看下节点node的结构n_descendants记录了该节点下子节点的个数,children[2]记录了左右子树,v和a之后会详细说,先知道v[1]代表该节点对应的向量,a代表偏移就好。annoy建树的时原创 2017-08-03 17:29:40 · 17778 阅读 · 5 评论