2013年12月_nearvoid

12月 11月 10月 02月

原创思考与行动——执行力下降的原因

首先推荐一下自己看的几篇文章：1、布里丹的驴子其中第一篇文章给我最震撼的一句话就是：思考与行动的关系，有些人善于思考而拙于行动，犹犹豫豫而最终一事无成。2、布里丹毛驴效应根本原因：追求完美，害怕失去或者失败既想要得到鱼，有想要熊掌，看似追求完美，实际上是害怕失去其中一种，自己的贪心作怪（捕火鸡的故事），以至于贻误良机，在可行与不可行、可能与不可能、正确与谬误之间选择了后者，是最

2013-12-13 16:53:13 1430

原创信息检索之索引压缩

1、主要内容：信息检索系统中两个重要的数据结构：词项词典和全体倒排记录表，为了构建高效的IR系统，需要对这两个数据结构进行压缩。进行压缩有两个隐含的优点：①、能增加高速缓存（cache）技术的利用率：将频繁使用的查询此项t的倒排记录表采用压缩技术放到高速缓存中，当查询词项t的时候，不再需要进行磁盘操作，而只需要将其倒排记录表在内存中解压缩即可；②、压缩能够加快数据从磁盘到内存的传输速度

2013-12-12 18:38:28 3124

原创信息检索之文档评分、词项权重计算及向量空间模型

1、主要内容：在文档规模很大的情况下，满足布尔查询的结果文档数量可能非常多，往往会大大超过用户能够浏览的文档的数目。需要对搜索出来的文档进行评分和排序。 ①、参数化索引及域索引的概念；目的：1、可以通过元数据（文档的作者、标题、出版日期等）来对文档进行索引和检索；2、上述索引能够提供一个简单的文档评分； ②、词项字在文档中的权重的概念，并通过期出现的统计信息进行权重

2013-12-12 16:56:41 4848

原创信息检索之词典及容错式检索

1、主要内容：对查询中存在拼写错误或存在不同拼写形式具有鲁棒性的拼写矫正技术 ①、支持词典快速查找的多个数据结构； ②、通配符查询； ③、拼写上存在错误的查询，自动校正技术（针对单个词的独立矫正；针对整个查询串的整体矫正技术）； ④、查询词发音相似的查询；2、词典搜索的数据结构：确定每个查询此项是否在词汇表中可参见：1、MySQL索引背后的数据结构

2013-12-11 20:07:55 1344

原创信息检索之词项词典及倒排记录表

1、主要内容 ①文档的基本组成单位及文档中确定这些单位所含字符序列的方法； ②词条化（把原始的字符流分成一个个的词条）和语言学预处理（建立词条的等价类）； ③跳表倒排记录表数据结构（支持快速查询）； ④适合于短语查询和邻近查询的索引结构（在布尔操作的检索系统和web搜索系统中非常普遍）。2、字符序列的生成： ①、编码方式：Unicode

2013-12-11 20:06:45 1961

原创信息检索之布尔检索

1、倒排索引的两部分图 1-32、构建倒排索引的过程 ①收集需要建立索引的文档； ②将每篇文档转换成一个个词条的列表，这个过程成为词条化；（第二章） ③进行语言学处理，产生归一化的词条来作为词项；（第三章） ④对所有文档按照其中出现的词项来建立倒排索引，索引中包括一部词典（存于内存）和一个全体倒排索引表（存于磁盘）。（第四章）

2013-12-11 20:04:27 1821

原创 SnowNLP：处理中文文本内容

这是一个比yaha更加强大的中文分词工具。yaha简单来说只是使用最短路径算法（Dijstra）实现了中文分词，而SnowNLP则实现了词性标标准，情感分析，文本分类，转换成拼音，繁体转简体，文本关键词提取，文本摘要提取，tf，idf，Tokenization（分割成句子），文本相似。为实现上面的功能用到了不少的算法和模型，比如textrank、贝叶斯分类器、隐含马尔科夫模型等。对于学习研究中

2013-12-08 21:01:45 10992