自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

随-记的专栏

初来乍到

  • 博客(5)
  • 资源 (11)
  • 收藏
  • 关注

原创 Solr服务原理(索引)

摘要: 在Solr中,用户通过向部署在servlet容器中的 Solr Web 应用程序发送 HTTP 请求来启动索引和搜索/查询。索引 Solr的索引servlet可以接受下面四种形式的索引请求 add/update 允许向Solr添加文档或更新文档。直到提交后才能搜索到这些添加和更新commit 告诉Solr,应该使上次提交以来所做的所有更改都可以搜索到optimize 重构 Lucene

2017-04-30 10:12:50 2214

原创 Solr6的solrconfig.xml解读

摘要 solrconfig.xml配置文件主要定义了Solr的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置。 luceneMatchVersion 6.0.0 表示Solr底层使用的是Lucene6 lib 定义了Solr需要额外引用的jar包位置,如果对应的文件不存在,会自动忽略这一配置,一般建议将其注释掉,只添加需要使用的jar包。 dataDir

2017-04-23 22:57:17 2692

原创 solr 近实时搜索

摘要: Solr的近实时搜索NRT(Near Real Time Searching)意味着文档可以在索引以后马上可以被查询到。Solr不会因为这次提交而阻塞更新操作,不会等待后台合并的完成而直接检索索引并返回数据。参见原文 利用NRT,就可以设置soft commit,因为标准的commit操作代价高昂,soft commit可以做到近乎实时的查询效果而不丢失数据。 Commits 与 Opt

2017-04-22 23:22:02 7241 2

原创 Solr/Lucene打分算法

摘要: 检索模型也就是文档和查询词的相关度的评分方法。Lucene使用布尔模型来确定哪些文档匹配上查询词,使用向量空间模型(VSM)来对这些文档评分。核心评分算法中的向量空间模型使用Tf-idf计算权重,对给定的词t和文档x,Tf(t,x)的值和词t在x中出现的次数正相关,而idf(t)的值和索引文档集合中包含词t的次数负相关。相关名词 tf/词频 度量一个文档里词出现的频率 idf/逆向文件频率

2017-04-05 22:55:35 3123

原创 Solr自定义分词器-通过特殊字符分词

摘要: 在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。业务场景有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据

2017-04-02 23:07:12 5975

Windows6.1-KB2999226补丁

这个文件是 Windows的 KB2999226 补丁,在64位机器上工作的,可以解决计算机中丢失api-ms-win-core-***-|1-1-0.dll类似的问题。

2017-07-05

自定义Solr分词器

自定义的Solr 分词器,可以通过竖线"|"来分词,可以在博客http://blog.csdn.net/jiangchao858/article/details/68954044看到生成过程与使用步骤。

2017-04-02

第一个Java程序

第一个Java程序PPT

2017-04-01

kernel-headers-3.10.0-327.el7.x86_64.rpm

安装CenterOS 的时候需要用到的内核kernel-headers-3.10.0-327.el7.x86_64.rpm

2017-03-05

kernel-devel-3.10.0-327.el7.x86_64.rpm

安装CenterOS的时候需要用到的kernel-devel-3.10.0-327.el7.x86_64.rpm

2017-03-05

Git 32位_2.11.1.exe客户端

Git官网下载太慢,好不容易下载到了32位的2.11版本Git客户端,分享于此。

2017-02-15

ik-analyzer-solr6

支持Solr6的中文分词ik-analyzer,已经修改了源码,源码上传到了GitHub上,名字就是ik-analyzer-solr6

2016-11-15

mmseg4j-solr-2.3.2-with-mmseg4j-core

该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar或者其他版本。

2016-11-09

mmseg4j-solr-2.3.0-with-mmseg4j-core

mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,支持Solr5.x版本,向上兼容Solr6,但是不支持Solr6的所有版本。该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

2016-11-06

marklogic eclipse 插件XQDT

marklogic 的eclipse插件XQDT,官网上给我链接在eclipse上装插件失败了,就找到了这个离线的插件zip包。只需要解压文件后,复制到eclipse对应的目录下:features和plugins下,不需要其他配置,重启eclipse即可。

2015-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除