搜索引擎
全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
元搜索引擎
元 搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、 Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
全文搜索引擎的基本原理
具体再详细的概念参照baidu吧 搜索引擎
lucenne
java领域的全文搜索的工具包lucene不仅可以对文本数据进行搜索,还可以对html,excel和pdf等格式的文件建立索引并且进行搜索。
Hibernate search底层使用的就是 lucene。
--------------------------------------------------------------------------------------------------------------------------------
上述都属于概念
Hibernate Search特点
支持索引数据的自动更新
支持众多的搜索方式,使用关键词进行搜索,也可以使用通配符进行搜索,还可以使用近似或者同义词进行搜索
支持搜索集群
支持对Lucene API直接的调用
Hibernate Search的类库
hibernate-search.jar
lucene-core.jar
hibernate-commons-annotations.jar
需要修改Hibernate.cfg.xml配置使用Hibernate Search
- <property
name="hibernate.search.default.directory_provider"> org.hibernate.search.store.FSDirectoryProvider </property> <property name="hibernate.search.default.indexBase"> D:/temp/index </property> <mapping resource="com/rbh/examples/Guestbook.hbm.xml" /> <event type="post-update"> <listener class="org.hibernate.search.event.FullTextIndexEventListen er" /> </event> <event type="post-insert"> <listener class="org.hibernate.search.event.FullTextIndexEventListen er" /> </event> <event type="post-delete"> <listener class="org.hibernate.search.event.FullTextIndexEventListen er" /> </event> <event type="post-collection-recreate"> <listener class="org.hibernate.search.event.FullTextIndexEventListen er" /> </event> <event type="post-collection-remove"> <listener class="org.hibernate.search.event.FullTextIndexEventListen er" /> </event> <event type="post-collection-update"> <listener class="org.hibernate.search.event.FullTextIndexEventListen er" /> </event>
- @Indexed
- public
class Guestbook implements java.io.Serializable { - .............
@DocumentId //表示这个对象的主键 public Integer getId() { return this.id; } @Field(store = Store.YES) public String getName() { return this.name; } - ...............
- }
对持久化对象建立索引
- Session
session = HibernateSessionFactoryU til.getSessionFactory().getCurrentSession(); - session.getTransaction().begin();
- FullTextSession
ftSession = org.hibernate.search.Search.getFullTextSession(session); - List<Guestbook>
guestbooks = session.createQuery("from Guestbook").list(); - for
(Guestbook gb : guestbooks) { ftSession.index(gb); - }
- ftSession.getTransaction().commit();
- QueryParser
parser = new QueryParser("title", new StandardAnalyzer()); - org.apache.lucene.search.Query
luceneQuery = null; - try
{ luceneQuery = parser.parse("title:test"); // build Lucene query - }
catch (ParseException e) { e.printStackTrace(); - }
- Session
session = HibernateSessionFactoryU til.getSessionFactory().getCurrentSession(); - session.getTransaction().begin();
- FullTextSession
ftSession = org.hibernate.search.Search.getFullTextSession(session); - org.hibernate.Query
query = ftSession.createFullTextQuery(luceneQuery, Guestbook.class); - query.setMaxResults(20);
- query.setFirstResult(0);
- List<Guestbook>
guestbooks = query.list(); - for
(Guestbook gb : guestbooks) { printGuestbook(gb); - }
- ftSession.getTransaction().commit();
使用luke工具,查看索引数据
Luke是一款显示Lucene索引数据、修改Lucene索引数据和进行模拟搜索的开源工具
注意:现在版本为luke-src-0.9.9,下载后也为lukeall0.9.9.jar cmd下无法运行lukeall0.9.9.jar 改名为lukeall.jar,运行java -jar lukeall.jar 即可
中文分词
把中文的句子切分成有意义的词,这就是中文分词
中文分词的基本机制
一种使用词库匹配
另一种使用自动切分算法
词库切分与自动切分的比较
Hibernate Search 使用第三方的中文分词组件
IK Analyzer中文分词组件--------下载地址http://code.google.com/p/ik-analyzer/
"庖丁解牛"分词组件-------下载地址http://code.google.com/p/paoding/
配置"庖丁解牛"分词组件
1,把paoding-analysis-2.0.4-beta解压缩,给项目中加入paoding-analysis.jar。
2,把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。
3,配置paoding的词库:把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下:
修改paoding .dic .home .config-fisrt=this ,使得程序知道该配置文件
修改paoding .dic .home =classpath:dic ,指定字典的所在路径。绝对路径也可以,但是不好持久化类中注解
- ......
- @Indexed
- @Analyzer(impl
= net.paoding.analysis.analyzer.PaodingAnalyzer.class) - public
class Guestbook implements java.io.Serializable { - .......
- }
一、配置
使用过Lucene的人都知道,Lucene是使用Directory这个概念来存储索引文件的,所以在Hibernate Search中提供了一个初始化、配置化的工厂类DirectoryProvider来生成相应的Directory。而在这里,我使用了 FSDirectoryProvider这个工厂类,其中FS代表文件系统,意思是索引文件保存在文件系统中。因此,我们在hibernate.cfg.xml文件中加入了一下内容:
- < propertyname = "hibernate.search.default.directory_provider" >
- org.hibernate.search.store.FSDirectoryProvider
- </ property>
- < property name= "hibernate.search.default.indexBase">
- E:/temp/index
- </ property >
其中属性hibernate.search.default.indexBase代表索引文件默认的保存位置。
这些属性设置完成后,接下来就是使用Annotation对指定POJO的指定属性进行配置了。如下:
- @Indexed (index = "text" )
- public classText implementsjava.io.Serializable
- {
- @DocumentId
- privateInteger id;
- privateString fileName;
- privateString filePath;
- @Field (name ="content" , store = Store.NO, index = Index.TOKENIZED, analyzer =@Analyzer (impl = ChineseAnalyzer.class ))
- privateString content;
- ......
- }
其中@Indexed用于标示需要建立全文索引的实体类,它包含一个属性index用于标示这个全文索引的名字
@DocumentId用于标示实体类中的唯一的属性保存在索引文件中,是当进行全文检索时可以这个唯一的属性来区分索引中其他实体对象,一般使用实体类中的主键属性
二、建立索引
配置完成以上设置之后,Hibernate Search的配置工作算是大功告成了,剩下的就是如何在编码时使用到Hibernate Search。其实Hibernate Search的使用与我们平时Hibernate的使用基本一致,索引的建立工作是可以由Hibernate Search后台自动处理的,无需手工操作,其中的主要差别有
1、Configuration
由于本文中Hibernate Search配置是由Annotation来完成的,所以我们在初始化Configuration、SessionFactory、Session时应该这样写:
- factory = newAnnotationConfiguration().configure(file).buildSessionFactory();
使用AnnotationConfiguaration来代理平常使用的Configuration
2、Session
要使用Hibernate Search的功能就不能单纯使用平常的Session来开始事务,进行数据库操作,而是应该改用FullTextSession(实体类配置好了用平常Session就可生成索引。)
- //获取Session
- Session session = HibernateUtil.getSession();
- //封装Session为FullTextSession
- FullTextSession fullTextSession = Search.createFullTextSession(session);
- //开始事务
- Transaction tx = fullTextSession.beginTransaction();
- ......
- //提交事务
- tx.commit();
- //关闭会话
- fullTextSession.close();
三、检索
接下来就是说一下如何使用全文检索功能来检索实体对象了。
- Session session = HibernateUtil.getSession();
- FullTextSession fullTextSession = Search.createFullTextSession(session);
- Transaction tx = fullTextSession.beginTransaction();
- QueryParser parser = newQueryParser( "content", newChineseAnalyzer());
- Query query = fullTextSession.createFullTextQuery(parser.parse(word),
- Text. class);
- List result = query.list();
- for ( inti = 0 ; result != null && i < result.size(); i++)
- {
- Text pojo = (Text) result.get(i);
- System.out.println( "文件名:"+ pojo.getFileName());
- System.out.println( "文件路径:"+ pojo.getFilePath());
- System.out.println();
- }
- tx.commit();
- fullTextSession.close();
首先是建立相应的QueryParser由他来对输入的关键字进行切分后产生Lucene下的Query实例,最后通过 FullTextSession的createFullTextQuery方法生成hibernate下的Query实例,执行list方法即可获得查询 的实例结果集合。