2017年04月_cj96248

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Solr服务原理（索引）

摘要：在Solr中，用户通过向部署在servlet容器中的 Solr Web 应用程序发送 HTTP 请求来启动索引和搜索/查询。索引 Solr的索引servlet可以接受下面四种形式的索引请求 add/update 允许向Solr添加文档或更新文档。直到提交后才能搜索到这些添加和更新commit 告诉Solr，应该使上次提交以来所做的所有更改都可以搜索到optimize 重构 Lucene

2017-04-30 10:12:50 2214

原创 Solr6的solrconfig.xml解读

摘要 solrconfig.xml配置文件主要定义了Solr的一些处理规则，包括索引数据的存放位置，更新，删除，查询的一些规则配置。 luceneMatchVersion 6.0.0 表示Solr底层使用的是Lucene6 lib 定义了Solr需要额外引用的jar包位置，如果对应的文件不存在，会自动忽略这一配置，一般建议将其注释掉，只添加需要使用的jar包。 dataDir

2017-04-23 22:57:17 2692

原创 solr 近实时搜索

摘要： Solr的近实时搜索NRT（Near Real Time Searching）意味着文档可以在索引以后马上可以被查询到。Solr不会因为这次提交而阻塞更新操作，不会等待后台合并的完成而直接检索索引并返回数据。参见原文利用NRT，就可以设置soft commit，因为标准的commit操作代价高昂，soft commit可以做到近乎实时的查询效果而不丢失数据。 Commits 与 Opt

2017-04-22 23:22:02 7241 2

原创 Solr/Lucene打分算法

摘要：检索模型也就是文档和查询词的相关度的评分方法。Lucene使用布尔模型来确定哪些文档匹配上查询词，使用向量空间模型（VSM）来对这些文档评分。核心评分算法中的向量空间模型使用Tf-idf计算权重，对给定的词t和文档x，Tf(t,x)的值和词t在x中出现的次数正相关，而idf(t)的值和索引文档集合中包含词t的次数负相关。相关名词 tf/词频度量一个文档里词出现的频率 idf/逆向文件频率

2017-04-05 22:55:35 3124

摘要：在对英文句子分词的时候，一般采用采用的分词器是WhiteSpaceTokenizerFactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像，于是自己根据Solr源码自定义了分词策略。业务场景有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据

2017-04-02 23:07:12 5975

Windows6.1-KB2999226补丁

这个文件是 Windows的 KB2999226 补丁，在64位机器上工作的，可以解决计算机中丢失api-ms-win-core-***-|1-1-0.dll类似的问题。

2017-07-05

自定义Solr分词器

自定义的Solr 分词器，可以通过竖线"|"来分词，可以在博客http://blog.csdn.net/jiangchao858/article/details/68954044看到生成过程与使用步骤。

2017-04-02

第一个Java程序

第一个Java程序PPT

2017-04-01

kernel-headers-3.10.0-327.el7.x86_64.rpm

安装CenterOS 的时候需要用到的内核kernel-headers-3.10.0-327.el7.x86_64.rpm

2017-03-05

kernel-devel-3.10.0-327.el7.x86_64.rpm

安装CenterOS的时候需要用到的kernel-devel-3.10.0-327.el7.x86_64.rpm

2017-03-05

Git 32位_2.11.1.exe客户端

Git官网下载太慢，好不容易下载到了32位的2.11版本Git客户端，分享于此。

2017-02-15

ik-analyzer-solr6

支持Solr6的中文分词ik-analyzer，已经修改了源码，源码上传到了GitHub上，名字就是ik-analyzer-solr6

2016-11-15

mmseg4j-solr-2.3.2-with-mmseg4j-core

该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`，其中solr-2.3.2不是官方的版本，该版本有改动，使得mmseg4j可以很好的支持Solr6，如果你的Solr低于Solr6，请使用官方的mmseg4j-solr-2.3.0.jar或者其他版本。

2016-11-09

mmseg4j-solr-2.3.0-with-mmseg4j-core

mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包，支持Solr5.x版本，向上兼容Solr6，但是不支持Solr6的所有版本。该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

2016-11-06

marklogic eclipse 插件XQDT

marklogic 的eclipse插件XQDT，官网上给我链接在eclipse上装插件失败了，就找到了这个离线的插件zip包。只需要解压文件后，复制到eclipse对应的目录下：features和plugins下，不需要其他配置，重启eclipse即可。

2015-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

随-记的专栏