Solr
liuxinglanyue
这个作者很懒,什么都没留下…
展开
-
Solr1.4.0源码分析(一) 解决DataImportHandler从数据库导入大量数据而内存溢出的问题(转)...
http://guoyunsky.iteye.com/blog/759148 Solr有个很方便的处理器叫DataImportHandler,可以通过配置配置db-data-config.xml配置各种数据源然后从中导入数据进行索引,很方便我们进行开发.但是之前从数据库导入数据一直有个问题,就是如果数据库中数据过大,就会导致内存溢出.自己经过阅读源码以及发邮件到Solr邮件列表,...原创 2010-11-24 17:49:28 · 167 阅读 · 0 评论 -
Solr1.4.0源码分析二 Solr分布式搜索中URL的正确用法和原理(转)
http://guoyunsky.iteye.com/blog/761308 最近要使用Solr做分布式搜索,自己一开始也是从网上搜集一些资料照着做.其中发现对Solr分布式搜索有个误区,会导致搜索结果不正确.比如我这里有两个Shand: 1)http://localhost:8080/solr1.4/core0/ 2)http://localhost:8080...原创 2010-11-24 17:50:23 · 80 阅读 · 0 评论 -
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还...原创 2010-11-26 22:18:29 · 88 阅读 · 0 评论 -
数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型...
[我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。]前段时间,Google 中国研究院的刘骏总监谈到在网络搜索排名中,用到的信息有上百种。更普遍地讲,在自然语言处理中,我们常常知道各种各样的但...原创 2010-11-26 22:27:05 · 105 阅读 · 0 评论