T_专_搜索引擎
文章平均质量分 67
benwdm
这个作者很懒,什么都没留下…
展开
-
SolrJ遭遇"Broken pipe"
在项目中用到SolrJ访问Solr服务器实现全文检索功能,前段时间都挺正常,今天发现在执行某些搜索时容易出现异常:2010/07/19 15:24:50 ERROR java.net.SocketException: 管道已断开 (errno:32) at java.net.SocketOutputStream.socketWrite0(Native Method) ...原创 2010-07-19 15:27:55 · 347 阅读 · 0 评论 -
Solr学习资料
这篇博客含有海量资料,学习solr必备字典。大概看完solr就基本上手了。 solr原味资料:http://wiki.apache.org/solr/FrontPage ( http://wiki.apache.org/solr/QueryParametersIndex http://wiki.apache.org/solr/SchemaXml http://wiki.a...原创 2013-02-25 22:11:49 · 103 阅读 · 0 评论 -
一堆非关系数据库
发现一个网站,里面里堆的非关系数据库,如果全弄熟了,该上哪儿找工作去? http://nosql-database.org/原创 2013-03-04 16:35:23 · 86 阅读 · 0 评论 -
Web开发中需要了解的东西
本来出处:http://blog.chinaunix.net/uid-14356162-id-3080753.html============================================== Web开发中需要了解的东西在StackExchange上有人问了这样一个问题:What should every programmer know...原创 2012-02-24 16:34:53 · 109 阅读 · 0 评论 -
WordPress给文章添加固定字段(转)
应花生奶油网友的求助,特意研究了一下如何给WordPress的wp_posts表添加一个字段,然后每次发布文章时就自动给这个字段添加内容,这个字段也就和文章标题、内容、发布时间等平起平坐了,是文章的固有属性。 在通常情况下,我们如果想在WordPress博客中给文章添加额外的属性,那么我们一般都会想到使用自定义栏目(也称自定义字段),这也极大的增强了WordPress...原创 2012-10-25 08:13:25 · 1178 阅读 · 0 评论 -
虚拟化、云计算、开放源代码及其他 (转)
借国庆长假的机会写了这篇长文,全面地整理了个人从虚拟化到云计算各个层面的看法。主要的内容涉及虚拟化、虚拟化管理、数据中心虚拟化、云计算、公有云与私有云、以及开放源代码。本文的全部内容均属于作者的个人观点,而不代表任何公司的观点。欢迎讨论。A、虚拟化虚拟化是指在同一台物理机器上模拟多台虚拟机的能力。每台虚拟机在逻辑上拥有独立的处理器、内存、硬盘和网络接口。使用虚拟化技术能...原创 2012-10-19 21:29:18 · 218 阅读 · 0 评论 -
HTMLParser使用
HTMLParser使用 HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。下面是网友的一些使用经验,摘抄一下,备查。HTMLParser的核心模块是org.htmlparser.Parser类,这个类实际完成了对于H...原创 2011-11-30 15:48:03 · 117 阅读 · 0 评论 -
关于Solr1.4和paoding分词器整合的一个需要注意的问题
今天有人说在Solr1.4里使用paoding2.0.4(可能是终结版了),无法实现正常的高亮显示。这个问题说难不难,说简单也不简单,我上次配置的时候,也花了一点时间测试,才找对合适的参数。今天既然有人问起来,我干脆在这里简单写一下,免得以后忘记。 闲话少叙,开始干活。 在Solr1.4出来之前,Paoding就已经停止开发了,所以Paoding分词器没有考虑与Solr1.4整合的...原创 2010-11-17 18:45:00 · 101 阅读 · 0 评论 -
Lucene搜索语法中类似SQL语法中IN的用法
今天摸索了一个Lucene中类似于SQL语法中 IN 的用法: ID:(XZXT_009_XZ_XXKW_79563842107502 OR XZXT_009_XZ_XXKW_77144338881602 OR XZXT_009_XZ_XXKW_59998214491402 OR XZXT_009_XZ_XXKW_86645151264302 OR XZXT_009_XZ_XXKW_660...原创 2010-11-03 09:31:23 · 1337 阅读 · 0 评论 -
Solr Flux——把Solr重新包装成RDBMS
Solr Flux是一个使用类SQL语句来从Solr服务器搜索内容的交互式工具,绕了一圈,又绕回到RDBMS上去了,呵呵。前段时间在网上看到有人讨论过类似的话题,没想到还真有人早就做出来了。 =========================http://code.google.com/p/solrflux/ 原文如下:Solr Flux is an interacti...原创 2010-10-21 17:16:31 · 88 阅读 · 0 评论 -
SolrJ的javabin格式分析
Solr中对于返回数据格式有xml、json、javabin等等,其中当传入参数wt=javabin时可以直接返回solr自定义序列化的javabin二进制流。Solr对对于对象的序列化基本采用以下格式(对于熟悉lucene的同学来说可能更容易理解):version+[tag+value]第一个byte表示Version,必须为“1”。下面就是对象的定义了。tag为一个字节,前三...原创 2011-01-04 10:15:28 · 266 阅读 · 0 评论 -
Lucene CBIR
Lire(Lucene Image REtrieval) Lucene图像检索,是一个开源的JAVA语言编写的CBIR库。CBIR :Content Based Image Retrieval,基于内容的图像检索,直接采用图像内容进行图像信息查询的检索。CBIR技术可追溯到1992年。这项技术是为了解决报刊等媒体集团大量图片检索的难题而衍生出来的。Lire 库提供了一种简单的方式检索基于图...原创 2010-08-31 20:29:12 · 122 阅读 · 0 评论 -
IKAnalyzer3.2.0 Stable版使用自定义词典出现数组下标越界异常
使用环境:Solr1.4Lucene2.9.1 或 Lucene2.9.2 或 Lucene2.9.3 出错过程:根据IKAnalyzer3.X官方手册,配置自定义词典,在启动时报错如下,把自定义词典移除,异常不再就不出现。2010-7-22 9:51:15 org.apache.solr.common.SolrException log严重: java.lang.Ex...原创 2010-07-22 15:05:37 · 177 阅读 · 0 评论 -
Solr的扩展
Scaling up Large Scale Search from 500,000 volumes to 5 Million volumes and beyondSubmitted by Tom Burton-West on February 1, 2010To scale up from 500,000 volumes of full-text to 5 millio...原创 2013-02-25 22:49:07 · 266 阅读 · 0 评论