![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene
文章平均质量分 85
tornadowp
6年IT行业工作经验,熟悉无线,搜索及WEB业务;具有技术研发、项目管理、运营及统计分析工作经验,大规模分布式系统设计及开发经验,千万级以上数据处理经验;熟悉主流开发技术如Java、Android、数据库应用及SQL编程、 Linux应用及shell编程、Python、及AJAX、Html、CSS等;英语6级;学习力强,善于沟通。
展开
-
Java Lucene (5):索引PDF文档
Java lucene 技术(5):索引PDF文档通过本章的学习,你将会掌握一种对PDF文档建立索引的方式。从上一章内容,我们知道Lucene有能力对非纯文本格式的文档建立索引,这需要通过一定的解析工具将各种内容从非纯文本格式的文档中解析出来。同样,对PDF,也需要这样的工具。本章程序使用的是名为PDFBox的开源库,它的API提供了很好的对PDF文档解析的作用。程序5.1提供了PDFBox的AP原创 2008-02-25 10:06:00 · 2046 阅读 · 0 评论 -
Java Lucene(7):编写索引器之二
Java lucene 技术(7) : 编写索引器之二程序6-2实现了基本的中文分词功能,可供读者参考: public class MyselfChineseTokenizer { protected Reader reader; public MyselfChineseTokenizer(StringReader sr){ read原创 2008-02-29 11:06:00 · 2881 阅读 · 0 评论 -
Java Lucene (2):分词器
java lucene 技术 (2) :分词器使用Lucene时,选择一个合适的分析器是非常关键的。对分析器的选择没有惟一的标准。待分析的语种是影响分析器选择的因素之一,因为每种语言都有其自 身的特点。影响分析器选择的另一个因素是被分析的文本所属的领域,不同的行业有不同的术语、缩写词和缩略语,我们在分析过程中一定要注意这一点。尽管我们 在选择分析器时考虑了很多因素,但是不存在任何一个分析原创 2008-02-20 11:10:00 · 5874 阅读 · 1 评论 -
Java Lucene(6):编写索引器之一
Java lucene 技术(6) : 编写索引器之一从本章开始,我们将建立一个索引工具,它可以实现基本的中文分词功能和建立索引功能。首先,通过一个程序示例,说明为什么搜索引擎要采用索引的方式。程序6-1向你展示了一个简单文本搜索算法:public class TextSearch { private final static int maxNum_T = 255; private f原创 2008-02-27 14:11:00 · 3888 阅读 · 0 评论 -
Java Lucene(8):解析html页面
Java lucene 技术(8): 解析html页面可能Html页面是目前数量最多的数据存储格式,因此,lucene内置了html解析器,用以提供对html页面的解析,解析器对内部细节进行了较好的封装,我们所需做的,只是根据它提供的API,进行相应的程序编写。程序8.1提供了一个解析html页面的方式。 BufferedReader br = new BufferedRea原创 2008-03-05 13:46:00 · 2683 阅读 · 1 评论 -
Java Lucene (9):HTMLParser与html页面解析
java lucene 技术(9):HTMLParser与html页面解析HTMLParser 是一个开源的Java库,它提供了接口,支持线性和嵌套HTML文本。在实际的项目中只需要将htmlparser.jar 导入classpath中,就可以使用HTMLParser提供的API了。HTML有3种类型的节点:RemarkNode:html中的注释,TagNode:标签节点,TextNode:文本原创 2008-03-07 13:55:00 · 6273 阅读 · 0 评论