solr/lucene学习总结
alen1985
热爱计算机,打篮球、run....
展开
-
lucene检索数据库并查询
下面的程序用的是:lucene- 2.0.0 数据库是:mysql实现功能:为数据库建立索引,输入一个查询,就可以得到相应内容,有点类似SQL语句,此程序只供练习用。数据库字段有:id name age 当输入一个人的姓名后,可以得到相应的其id和age源代码如下:package test;import java.awt.List;impor原创 2008-12-11 10:05:00 · 5404 阅读 · 0 评论 -
je-analysis-1.4.0中文分词添加自己的词库
<!--@font-face {font-family:Wingdings}@font-face {font-family:宋体}@font-face {font-family:"/@宋体"}p.MsoNormal, li.MsoNormal, div.MsoNormal {margin:0cm; margin-bottom:.0001pt; text-al原创 2008-12-27 21:13:00 · 2736 阅读 · 0 评论 -
solr的multivalued使用说明
solr的schema.xml配置文件在配置Filed的时候,有个属性: MutiValued:true if this field may containmutiple values per documents,这个说明有点模糊,下面结合实际应用,列举两个不同的例子。 例子一:一个field有多个值,值来自同一filed原创 2013-01-24 17:10:09 · 27208 阅读 · 6 评论 -
solr中mmseg4j支持单个字母、数字及组合搜索
如题,看到这个题目也许觉得功能有些多余,字母、数字连在一块的话,是不会单独分出来的,分词时候是连在一块的,也算正常搜素需求。如输入 : String txt = "IBM12二次修改123"; 分词效果: i bm |123 | 二 | 次 | 修 | 改 现在,有一个需求:需要对字母、数字都分词,分词效果要达到:原创 2013-01-17 17:29:04 · 4774 阅读 · 1 评论 -
solr中mmseg4j自定义词库配置
mmseg4j是一个比较流行的中文分词,具体介绍见:http://code.google.com/p/mmseg4j/schema.xml 配置文件: dicPath="/data/web/search_cores/multicore/dic"/>原创 2013-01-14 14:57:23 · 9114 阅读 · 0 评论 -
网页数据抽取技术调研
通过网上搜索,主要分为两类:1)量小(指定url,适用于代购类网站):主要技术思路:jtidy-->解析html网页成xml格式-->采用xpath和xslt--->解析出需要的内容优点:针对不同的网页解析,只需要配置xslt模板,不需要更改程序缺点:网页结构变化,xslt需要经常变;2)爬虫(数据库级别网页):可以使用Web-Harvest原创 2013-12-25 17:04:09 · 937 阅读 · 0 评论 -
elasticsearch使用river同步mysql数据
====== mysql的river介绍====== - 什么是river?river代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。这里主要研究针对mysql的river。原创 2014-11-21 19:23:26 · 35191 阅读 · 11 评论