Lucene
文章平均质量分 77
常笑笑
这个作者很懒,什么都没留下…
展开
-
自己动手写搜索引擎(常搜吧历程四#分词#)(Java、Lucene、hadoop)
分词的基本原理:1、分词是用来对文本按语言特征按算法进行过滤、分组处理的一种技术。2、分词的对象是文本,而不是图像动画脚本等等。3、分词的方式就是过滤和分组。4、过滤主要把文本中那些没有实际意义的字或词过滤掉。5、分组就是按照”分词数据库“内已添加好的词,进行匹配。下面来看Lucene分词器的使用package com.qianyan.analyzer;im原创 2013-03-18 09:38:33 · 1698 阅读 · 1 评论 -
Lock obtain timed out: Lock@的解决方法(lucene)
java.io.IOException: Lock obtain timed out: Lock@D:/Tomcat6 .0/temp/lucene-123-write.lock at org.apache.lucene.store.Lock.obtain(Lock.java:56) at org.apache.lucene.index.IndexWriter.(IndexWriter转载 2013-03-22 08:36:25 · 1755 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧历程二#索引#)(Java、Lucene、hadoop)
Lucene的核心索引类:1、IndexWriter:建立索引的核心组件。2、Directory:代表一个lucene索引项的位置。3、Analyzer:对文本内容进行分析的抽象类,具体实现中有停用词切除 、词干分析、大小写切换等功能。4、Document:可以视作文本经过处理后所对应的对象,由多个字段组成 ,如路径、标题、摘要、修改日期等等。5、Field:字段 ,对应于文本原创 2013-03-17 15:42:31 · 1210 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧历程三#搜索#)(Java、Lucene、hadoop)
Lucene的常用检索类1、IndexSercher:检索操作的核心组件,用于对IndexWriter创建的索引执行,只读的检索操作,工作模式为接受Query对象而返回ScoreDoc对象。2、Term:检索的基本单元,标示检索的字段名称和检索对象的值,如Term("title", "lucene")。即表示在title字段中搜索关键词lucene。3、Query:表示查询的抽象类,由原创 2013-03-17 17:58:02 · 10244 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧历程五#解析文档之XML#)(Java、Lucene、hadoop)
今天我们来进行对XML的学习。认识XMLXML(Extensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。XML是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系原创 2013-03-19 10:45:21 · 1509 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧历程六#解析文档之PDF#)(Java、Lucene、hadoop)
1、使用PDFBox处理PDF文档PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在Windows、Unix或Mac OS等操作系统上通用。PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中的文本信息,需要根据它的文件格式来进行解析。幸好目前已经有原创 2013-03-19 18:34:56 · 1715 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧历程一#认识Lucene#)(Java、Lucene、hadoop)
今天起,着手写第二个毕业设计,也在博客上记录下来项目的成长过程,与大家共勉 ~首先、要做一个自己的企业内部搜素引擎呢,要认识Lucene:1、Lucene的贡献者Doug Cutting是一位自身全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些INTERNET底层架原创 2013-03-16 19:59:05 · 1645 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧历程七#解析文档之WORD#)(Java、Lucene、hadoop)
一、POI对Word处理1、读取Word1、读取Excel3、下载地址:http://www.apache.org/dyn/closer.cgi/poi/dev/代码实现:package com.qianyan.test;import java.io.File;import java.io.FileInputStream;import org.apache.poi.h原创 2013-03-20 13:10:05 · 1495 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧历程七#解析文档之HTML#)(Java、Lucene、hadoop)
一、垂直搜索介绍1、垂直搜索--即需要抓去大量的网页,分析其中的数据。垂直搜索更着重于正文内容模式分离,数据调整,相关链接分析,是一种结构化分析过程。2、垂直搜索技术主要分为两个层次:模版级和网页库级3、模版级是针对网页进行模版设定或者自动生成模版的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,原创 2013-03-19 21:34:06 · 1396 阅读 · 1 评论 -
自己动手写搜索引擎(常搜吧历程三#搜索二#)(Java、Lucene、hadoop)
接着上一节搜索一,我们来深入学习Lucene下搜索的其他功能。Lucene分页搜索的实现:package com.qianyan.lucene;import java.io.IOException;import org.apache.lucene.document.Document;import org.apache.lucene.index.Term;import原创 2013-03-17 21:45:36 · 1096 阅读 · 0 评论 -
自己动手写搜索引擎(常搜吧项目展示)(Java、Lucene、hadoop)
学习了两星期的Lucene,对它的基础知识有了一定的掌握,并开发了自己的常搜吧项目。下面展示下我的项目,其实用到的都是很Lucene中很基础的知识,以及第三方工具,例如XPDF,Htmlparser,paoding分词器 .etc 。本项目采用Struts2 + Mybatis + spring框架搭建,数据库用的Oracle。(博主只是到了灵活应用的程度,对于源码还是小白)。前端采用原创 2013-04-06 12:31:53 · 3010 阅读 · 37 评论