信息检索
文章平均质量分 69
星际丶牛仔
人生,就是如此
展开
-
朴素贝叶斯分类算法(Naive Bayes algorithm)
多项式朴素贝叶斯(multinomial Naive Bayes)或者多项式NB(multinomial NB)模型, 它是一种基于概率的学习方法。该方法中,文档d 属于类别c 的概率的计算方法如下: 在文本分类中,我们的目标是找出文档最可能属于的类别。对于NB 分类来说,最可能的类是具有MAP(maximum a posteriori,最大后验概率)估计值的结果cmap:原创 2017-05-25 13:38:33 · 6208 阅读 · 0 评论 -
互信息(Mutual Information)和χ 2特征选择方法去噪处理
特征选择(feature selection)是从训练集合出现的词项中选出一部分子集的过程。 在文本分类过程也仅仅使用这个子集作为特征。 特征选择有两个主要目的: 第一,通过减少有效的词汇空间来提高分类器训练和应用的效率。这对于除NB 之外其他的训练开销较大的分类器来说尤为重要。 第二,特征选择能够去除噪音特征,从而提高分类的精度。 噪音特征(noise feature)指的是那些加入文本原创 2017-05-25 21:00:50 · 6152 阅读 · 3 评论 -
倒排索引(reverted index)的初步了解
布尔检索和倒排索引的实验: 1. 掌握倒排索引(reverted index)的建立过程 2. 掌握倒排记录表(postings lists)的合并算法倒排索引(reverted index)的建立过程倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索原创 2017-06-20 11:56:36 · 1850 阅读 · 0 评论 -
Gamma codes(γ 编码)的编码和解码过程(encoding and decoding of Gamma codes)
一个和最优编码长度差距在常数倍之内的方法是γ 编码。γ 编码将间距G表示成长度(length)和偏移(offset)两个部分进行变长编码。G的偏移实际上是G的二进制编码,但是前端的1 被去掉①。比如,对13(二进制为1101)进行编码,其偏移为101。G的长度指的是偏移的长度,并采用一元编码。对于刚才的例子,偏移的长度是3 位,因此其长度部分的编码是1110。因此,13 的整个γ 编码是111010原创 2017-06-20 14:05:23 · 7131 阅读 · 0 评论 -
采用VB的编码和解码过程(VB encoding and decoding)
VB(Variable byte, 可变字节)编码利用整数个字节来对间距编码。字节的后7 位是间距的有效编码区,而第1 位是延续位(continuation bit)。如果该位为1,则表明本字节是某个间距编码的最后一个字节,否则不是。要对一个可变字节编码进行解码,可以读入一段字节序列,其中前面的字节的延续位都为0,而最后一个字节的延续位为1。根据上述标识可以把每个字节的7 位部分抽取出来并连接在一起原创 2017-06-20 13:58:41 · 8676 阅读 · 0 评论 -
PageRank计算方法(通过power iteration方式来实现)
PageRank原创 2017-07-28 00:48:22 · 8204 阅读 · 1 评论 -
Java并发编程实战(学习笔记 十三 第十四章 构建自定义的同步工具 下 )
同步器原创 2017-08-16 19:21:46 · 458 阅读 · 0 评论 -
Java并发编程实战(学习笔记十一 第十二章 并发程序的测试)
并发程序的测试原创 2017-08-14 14:36:03 · 533 阅读 · 0 评论