读书笔记
麦克斯韦的妖精
大槐树下一梦醒,人事功名两茫茫。长恨当年花开日,少不更事老来伤。
展开
-
《开发自己的搜索引擎》读书笔记——Lucene的分析器
搜索引擎后台模块简图在Lucene中,一个标准的分析器由两部分组成。一部分是分词器,被称为Tokenizer,另一部分是过滤器,被称为TokenFilter。一个分析器往往由一个分词器和多个过滤器组成,这里所说的过滤器与上一部分所说的过滤器是完全不同的两个概念,此处的Filter主要是用于对用户切出来的词进行一些处理,如去掉一些敏感词、转换大小写、转换单复数等。TokenFilte原创 2017-04-18 15:39:41 · 484 阅读 · 0 评论 -
两种求解斐波那契数算法的时间比较
计算斐波那契数最容易理解的一种方法就是递归,具体实现方法如下所示:public static int fib(int n){ if(n<=1) return 1; else return fib(n-1)+fib(n-2); }在这个算法中我们可以得知,运行时间T(n)不小于T(n-1)与T(n-2)之和,所以,该算法的运行时间是指数级增长的。由于计算F(n)只需要F原创 2017-07-18 20:32:37 · 971 阅读 · 0 评论 -
《Java Web 程序设计与开发》读书笔记——JSP编程基础和JSP内置对象
本篇内容为读马月坤、赵全明两位老师编著清华大学出版社出版的《Java Web 程序设计与开发》的读书笔记。之前读了一天的人民邮电出版社的《JSP程序设计慕课版》,可能是我没有结合视频的缘故,感觉效果不好,因而换了这本书。有关HTML和JS的东西直接略过了。JSP编程基础1、 因为JSP声明中的变量是全局变量,所以它可以在任何地方被使用。2、原创 2017-05-05 22:20:31 · 2314 阅读 · 0 评论 -
开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门
这部分是在读《开发自己的搜索引擎》第二版,邱哲、符滔滔、王学松编著,人民邮电出版社,的随手笔记。由于是读别人的书,主要是记录的一些原书中的句子,因而不能算是原创,姑且算是转载吧。搜索引擎与信息检索信息检索的过程:构建文本库、建立索引、进行搜索、返回结果以前对结果进行过滤。倒排索引常用的索引方式有3种,分别是倒排、后缀数组和签名文档。从理论上说,倒排是一种面向原创 2017-04-10 21:52:04 · 613 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——索引的建立
Lucene的Document。Document的意义为文档,在Lucene中,它代表一种逻辑文件。Lucene本身无法对物理文件建立索引,而只能识别并处理Document类型的文件。在某些时候可以将一个Document与一个物理文件进行对应,用一个Document来代替一个物理文件,然而更多的时候,Document和物理的文件没有关系,它作为一种数据源的集合,向Lucene提供原始的要索引的原创 2017-04-12 08:42:40 · 3251 阅读 · 0 评论 -
利用Lucene实现一个简单的布尔搜索
在布尔查询的对象中,包含一个子句的集合,各个子句间都是如“与”、“或”这样的布尔逻辑。Lucene中所遇到的各种复杂查询,最终都可以表示成布尔型的查询。下面代码就是实现了一个简单的布尔查询。package LuceneSearch;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.l原创 2017-04-12 08:54:11 · 2149 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——Lucene搜索
使用IndexSearcher进行搜索Lucene搜索相关的API多数都被包含在org.apache.lucene.search包中。其中,最重要的是IndexSearcher类。(1)、IndexSearcher有三个public的构造函数,均以索引的存放目录作为参数。(2)、IndexSearcher的最简单使用IndexSearcher searcher = newIndex原创 2017-04-12 22:02:45 · 2694 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——排序
相关度排序Searcher的explain方法,解释文档得分的具体情况。文档得分主要由4个部分内容来决定,即tf(词条频率)、idf(反转文档频率)、boost(Field的激励因子)和lengthNorm(长度因子)。tf值的计算方法时某个关键字在某文档中出现次数的平方根。在进行相关度排序的时候,如果想人为地增加某个文档的相关度,使其在搜索结果中排在更靠前的位置上,则可以使用bo原创 2017-04-13 22:51:04 · 728 阅读 · 0 评论 -
《开发自己的搜索引擎》读书笔记——一个简单的过滤的例子
Lucene中所有的过滤器均来自于一个抽象的基类org.apache.lucene.search.Filter,它定义了过滤器的基本行为。Filter是一种过滤行为,这种过滤行为在Lucene的搜索时的表现就是“视而不见”,即遇到该文档时,发现它被“过滤”了,于是就省略它。BitSet是一种“位集合”队列,这个队列中的每个元素都只有两种取值,即true或false,Lucene以这两种取值来代原创 2017-04-15 11:03:12 · 919 阅读 · 0 评论 -
《算法导论》第三版勘误与建议
最近在读由殷建平、徐云、王刚、刘晓光、苏明、邹恒明和王志宏七位老师翻译,机械工业出版社出版的《算法导论(第3版)》这本书,发现了一些不太恰当的地方,在这里进行一下记录,以方便日后再读时查阅。此处按照页码顺序进行排序,由于我现在尚远远没有读完此书,故只能找出已读部分的一些进行整理,日后会不断完善。如有改得不太恰当之处,还请诸位大神不吝留言赐教。第一部分 基础知识第4章 分治策略...原创 2019-01-01 20:41:53 · 2166 阅读 · 0 评论