- 博客(5)
- 资源 (11)
- 收藏
- 关注
原创 Solr服务原理(索引)
摘要: 在Solr中,用户通过向部署在servlet容器中的 Solr Web 应用程序发送 HTTP 请求来启动索引和搜索/查询。索引 Solr的索引servlet可以接受下面四种形式的索引请求 add/update 允许向Solr添加文档或更新文档。直到提交后才能搜索到这些添加和更新commit 告诉Solr,应该使上次提交以来所做的所有更改都可以搜索到optimize 重构 Lucene
2017-04-30 10:12:50 2214
原创 Solr6的solrconfig.xml解读
摘要 solrconfig.xml配置文件主要定义了Solr的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置。 luceneMatchVersion 6.0.0 表示Solr底层使用的是Lucene6 lib 定义了Solr需要额外引用的jar包位置,如果对应的文件不存在,会自动忽略这一配置,一般建议将其注释掉,只添加需要使用的jar包。 dataDir
2017-04-23 22:57:17 2692
原创 solr 近实时搜索
摘要: Solr的近实时搜索NRT(Near Real Time Searching)意味着文档可以在索引以后马上可以被查询到。Solr不会因为这次提交而阻塞更新操作,不会等待后台合并的完成而直接检索索引并返回数据。参见原文 利用NRT,就可以设置soft commit,因为标准的commit操作代价高昂,soft commit可以做到近乎实时的查询效果而不丢失数据。 Commits 与 Opt
2017-04-22 23:22:02 7241 2
原创 Solr/Lucene打分算法
摘要: 检索模型也就是文档和查询词的相关度的评分方法。Lucene使用布尔模型来确定哪些文档匹配上查询词,使用向量空间模型(VSM)来对这些文档评分。核心评分算法中的向量空间模型使用Tf-idf计算权重,对给定的词t和文档x,Tf(t,x)的值和词t在x中出现的次数正相关,而idf(t)的值和索引文档集合中包含词t的次数负相关。相关名词 tf/词频 度量一个文档里词出现的频率 idf/逆向文件频率
2017-04-05 22:55:35 3124
原创 Solr自定义分词器-通过特殊字符分词
摘要: 在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。业务场景有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据
2017-04-02 23:07:12 5975
Windows6.1-KB2999226补丁
2017-07-05
自定义Solr分词器
2017-04-02
kernel-headers-3.10.0-327.el7.x86_64.rpm
2017-03-05
kernel-devel-3.10.0-327.el7.x86_64.rpm
2017-03-05
mmseg4j-solr-2.3.2-with-mmseg4j-core
2016-11-09
mmseg4j-solr-2.3.0-with-mmseg4j-core
2016-11-06
marklogic eclipse 插件XQDT
2015-11-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人