http://www.searchworkings.org/blog/-/blogs/409474
Lucene Wiki
http://wiki.apache.org/lucene-java/AnalysisParalysis
MySQL show status - show open database connections
http://alvinalexander.com/blog/post/mysql/how-show-open-database-connections-mysql
MBean
http://tech.ccidnet.com/art/3737/20040907/460571_1.html
Http
http://www.sourcestream.com/programming-stuff/java-http-server
Joseuph:
http://java.chinaitlab.com/base/862312.html
http://java.chinaitlab.com/dynamic/862237.html
http://blog.csdn.net/yanghua_kobe/article/details/7296156
http://www.rgagnon.com/javadetails/java-0342.html
http://docs.oracle.com/javase/6/docs/jre/api/net/httpserver/spec/com/sun/net/httpserver/package-summary.html
restful:
http://kb.cnblogs.com/page/91827/
http://www.java2s.com/Questions_And_Answers/Java-Lucene/CatalogJava-Lucene.htm
http://www.cnblogs.com/Laupaul/archive/2012/04/22/2464812.html
NIO
Lucene:
http://a280606790.iteye.com/blog/1477490
lucene分词原理:
1.获得文章/记录中的关键字,并对关键字进行处理。如:lives,living->live
2.建立倒排索引。同时记录关键词在文章中出现频率和出现的位置。
lucene的一些特点:
1.关键字是按字符顺序排列的(lucene没有使用B树结构),因此lucene可以用二元搜索算法快速定位关键词。
2.lucene将 关键词,关键词出现频率和关键词出现位置分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键字的频率信息和位置信 息。
3.Lucene中使用了field的概念,用于表达信息所在位置(如标题中,文章中,url中),在建索引中,该field信息也记录在词典文件中,每个关键词都有一个field信息(因为每个关键字一定属于一个或多个field)。
4.为了减小索引文件的大小,Lucene对 索引还使用了压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为<前缀长度,后缀>,例如:当前词为“阿拉伯语”,上一个词为 “阿拉伯”,那么“阿拉伯语”压缩为<3,语>。其次大量用到的是对数字的压缩,数字只保存与上一个值的差值(这样可以减小数字的长度,进而 减少保存该数字需要的字节数)。例如当前文章号是16389(不压缩要用3个字节保存),上一文章号是16382,压缩后保存7(只用一个字节)。
1.获得文章/记录中的关键字,并对关键字进行处理。如:lives,living->live
2.建立倒排索引。同时记录关键词在文章中出现频率和出现的位置。
lucene的一些特点:
1.关键字是按字符顺序排列的(lucene没有使用B树结构),因此lucene可以用二元搜索算法快速定位关键词。
2.lucene将 关键词,关键词出现频率和关键词出现位置分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键字的频率信息和位置信 息。
3.Lucene中使用了field的概念,用于表达信息所在位置(如标题中,文章中,url中),在建索引中,该field信息也记录在词典文件中,每个关键词都有一个field信息(因为每个关键字一定属于一个或多个field)。
4.为了减小索引文件的大小,Lucene对 索引还使用了压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为<前缀长度,后缀>,例如:当前词为“阿拉伯语”,上一个词为 “阿拉伯”,那么“阿拉伯语”压缩为<3,语>。其次大量用到的是对数字的压缩,数字只保存与上一个值的差值(这样可以减小数字的长度,进而 减少保存该数字需要的字节数)。例如当前文章号是16389(不压缩要用3个字节保存),上一文章号是16382,压缩后保存7(只用一个字节)。