Solr 和Nutch的一些资料

最新推荐文章于 2020-03-09 16:54:06 发布

missingu1314

最新推荐文章于 2020-03-09 16:54:06 发布

阅读量1.2k

点赞数

分类专栏： Nutch

本文链接：https://blog.csdn.net/missingu1314/article/details/8523300

版权

Nutch 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

2012-1209

Apache Nutch 1.6 发布

暂无评论[作者：阿丁分类： solr教程 ]

Apache Nutch 1.6 发布，该版本修复了超过 20 个 bug，新功能包括：新的 HostNormalizer，可通过 MIME-type 和 Indexer API 的功能增强来动态设置 fetchInterval ，更新 Tika 到 1.2 版本，更新 Autimaton 到 1.11-8 版本。

标签： Nutch, nutch1.6

2012-1015

Solr In action 试读本

暂无评论[作者：阿丁分类： solr教程 ]

《solr in action》这个可能是第一本关于 Solr 4.0 的书籍，看样子是还没写完，这里有第一章的文件，有兴趣的同学可以点击下载：Solr_meap_ch01

文件大小：1.44M

格式：PDF

页数：26页

标签： solrinaction

2012-1012

带 IK 分词器的 Luke

5条评论[作者：阿丁分类： solr教程 ]

Luke 之前的文章中有介绍过，这次提供一个带IK分词器的luke，点击这里下载。该版本是在 luke 3.5 基础上加入了 IK2012 的包，可以对solr3.5（lucene3.5）、solr3.6（lucene3.6）的词库进行查看。

这样，在 luke 的 plugins 界面中，可以下拉选择到IK 的分词器，输入相应的文本，就能查看到分词的结果。如下图所示：
在 search 界面里，也可以调出 IK 分词器对关键字进行分词，然后测试搜索结果。如下所示：

标签： ik, luke

2012-0728

Solr 缓存配置（一）

1条评论[作者：阿丁分类： solr教程 ]

缓存在 Solr 中充当了一个非常重要的角色，Solr 中主要有这三种缓存：

Filter cache（过滤器缓存），用于保存过滤器（fq 参数）和层面搜索的结果
Document cache（文档缓存），用于保存 lucene 文档存储的字段
Query result（查询缓存），用于保存查询的结果

还有第四种缓存，lucene 内部的缓存，不过该缓存外部无法控制到。

通过这 3 种缓存，可以对 solr 的搜索实例进行调优。调整这些缓存，需要根据索引库中文档的数量，每次查询结果的条数等。

在调整参数前，需要事先得到 solr 示例中的以下信息：

索引中文档的数量
每秒钟搜索的次数
过滤器的数量
一次查询返回最大的文档数量
不同查询和不同排序的个数

这些数量可以在 solr admin 页面的日志模块找到。假设以上的值分别为：

索引中文档的数量：1000000
每秒钟搜索的次数：100
过滤器的数量：200
一次查询返回最大的文档数量：100
不同查询和不同排序的个数：500

然后可以开始修改 solrconfig.xml 中缓存的配置了，第一个是过滤器缓存：

 
      
           < 
           filterCache 
           class 
           = 
           "solr.FastLRUCache" 
           size 
           = 
           "200" 
           initialSize 
           = 
           "200"  
           autowarmCount 
           = 
           "100" 
           /> 
          
 
    

第二个是查询结果缓存：

 
      
           < 
           queryResultCache 
           class 
           = 
           "solr.FastLRUCache" 
           size 
           = 
           "500" 
           initialSize 
           = 
           "500" 
           autowarmCount 
           = 
           "250" 
           /> 
          
 
    

第三个是文档缓存：

 
      
           < 
           documentCache 
           class 
           = 
           "solr.FastLRUCache" 
           size 
           = 
           "11000" 
           initialSize 
           = 
           "11000" 
           /> 
          
 
    

这几个配置是基于以上的几个假设的值进行调优的。

标签： solr缓存, solr调优

2012-0724

Apache Solr 3.6.1 发布

2条评论[作者：阿丁分类： solr教程 ]

改版主要是跟随 Lucene 升级，Lucene 本轮升级主要是 Bug 修改

标签： Solr 3.6.1

2012-0724

动态字段

暂无评论[作者：阿丁分类： solr教程 ]

正常情况下，需要事先把知道的字段定义在 schema.xml 中，当有不确定的字段时，这时可以使用动态字段。

这里是一个动态字段定义的示例：

 
      
           < 
           dynamicField 
           name 
           = 
           "*_s" 
           type 
           = 
           "string" 
           indexed 
           = 
           "true" 
           stored 
           = 
           "true" 
           /> 
          
 
    

这样，送过来的索引数据中，如果有以 _s 结尾的字段的值都都会被按照上述的索引方式进行索引，如字段名称为title_s，content_s。

在匹配过程，如果动态字段和静态字段都符合，会优先匹配静态字段。另外动态字段的仅支持 * 这一通配符，这个通配符仅能位于开头或结尾。

标签：动态字段

2012-0723

启用 solr suggest

5条评论[作者：阿丁分类： solr教程 ]

suggest 是搜索引擎一个方便的功能，对数据的关键字进行预测和建议，减少了用户的输入，大体的效果如下：

幸运的是 solr 也提供了类似的功能，在该功能的基础上，配合 jQuery 或 kissy 的自动完成组件就可以实现类似上面的功能。

启动该功能的过程大体如下：

suggest 的功能依赖拼写组件，solr_home/data 目录下会有一个 spellchecker 目录，该目录用于存放 suggest 和拼写检查的索引库，所以要先配置 spell 功能，配置如下：

 
      
           < 
           searchComponent 
           name 
           = 
           "spellcheck" 
           class 
           = 
           "solr.SpellCheckComponent" 
           > 
          
 
               
           < 
           str 
           name 
           = 
           "queryAnalyzerFieldType" 
           >textSpell</ 
           str 
           > 
          
 
               
           < 
           lst 
           name 
           = 
           "spellchecker" 
           > 
          
 
                 
           < 
           str 
           name 
           = 
           "name" 
           >default</ 
           str 
           > 
          
 
                 
           < 
           str 
           name 
           = 
           "field" 
           >title</ 
           str 
           > 
          
 
                 
           < 
           str 
           name 
           = 
           "buildOnCommit" 
           >true</ 
           str 
           > 
          
 
                 
           < 
           str 
           name 
           = 
           "spellcheckIndexDir" 
           >spellchecker</ 
           str 
           > 
          
 
               
           </ 
           lst 
           > 
          
 
             
           </ 
           searchComponent 
           > 
          
 
    

上述中的 field 用于指定主索引库中用于 spellchecker 索引的数据从主索引库的那个字段来获取。buildOnCommit 该属性为 true 时，当主索引库有提交指令时，将会自动把指定字段的内容送到 spellchecker 索引库，作为拼写检查和 suggest 使用。

接下来配置 suggest 的处理组件和请求类，如下所示：

 
      
           < 
           searchComponent 
           class 
           = 
           "solr.SpellCheckComponent" 
           name 
           = 
           "suggest" 
           > 
          
 
                
           < 
           lst 
           name 
           = 
           "spellchecker" 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "name" 
           >suggest</ 
           str 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "classname" 
           >org.apache.solr.spelling.suggest.Suggester</ 
           str 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "lookupImpl" 
           >org.apache.solr.spelling.suggest.tst.TSTLookupFactory</ 
           str 
           > 
          
 
                    
           < 
           float 
           name 
           = 
           "threshold" 
           >0.005</ 
           float 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "buildOnCommit" 
           >true</ 
           str 
           > 
          
 
                
           </ 
           lst 
           > 
          
 
           </ 
           searchComponent 
           > 
          
 
           < 
           requestHandler 
           class 
           = 
           "org.apache.solr.handler.component.SearchHandler" 
           name 
           = 
           "/suggest" 
           > 
          
 
                
           < 
           lst 
           name 
           = 
           "defaults" 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "spellcheck" 
           >true</ 
           str 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "spellcheck.dictionary" 
           >suggest</ 
           str 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "spellcheck.onlyMorePopular" 
           >true</ 
           str 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "spellcheck.count" 
           >5</ 
           str 
           > 
          
 
                    
           < 
           str 
           name 
           = 
           "spellcheck.collate" 
           >true</ 
           str 
           > 
          
 
                
           </ 
           lst 
           > 
          
 
                
           < 
           arr 
           name 
           = 
           "components" 
           > 
          
 
                    
           < 
           str 
           >suggest</ 
           str 
           > 
          
 
                
           </ 
           arr 
           > 
          
 
           </ 
           requestHandler 
           > 
          
 
    

这时候重新提交数据，会发现原先为空的 spellchecker 为空的索引库中有数据了，然后打开类似这样的网址（请将q=的值换成 title 字段中有的值）

http://localhost:8983/solr/suggest/?q=%E7%94%9F

会得到如下结果：

标签： suggest

2012-0721

luke：lucene 索引查看工具

暂无评论[作者：阿丁分类： solr教程 ]

luke 是 lucene 索引查看工具，基于 swing 开发的，是 lucene、solr、nutch 开发过程中不可或缺的工具。在测试搜索过程，进程出现搜不到东西或者搜到的东西不是想要的结果时，这时就需要用 luke 查看一下索引库的情况，来协助排查问题。

下载：

luke 可以从 google code 上下载

只是为了使用 luke 的话，下载 jar 包即可，经常有朋友下载成了源码包，最后不知道如何运行，从 luke 在 1.0 版版本对应的是 lucene 3.0，1.0 以前的版本，如0.9，对应的 lucene 版本为 2.9，从 1.0 以后，luke 跟 lucene 的版本号一一对应了，暂时没有找到3.6版本的luke，其实可以用4.0的luke代替，可以兼容的。

假设下载了lukeall-3.5.0.jar ，然后右键点击这个 jar，打开方式中选择 java 来运行他，即可看如下运行界面：

在path中写入索引库的目录，点击OK即可打开索引库。

打开索引库后可进行的操作就相对简单了，大家自行探索了，有问题 QQ 群内询问。

标签： luke, 索引查看

2012-0721

solr 启动小工具

暂无评论[作者：阿丁分类： solr教程 ]

在 solr 发行包中的 example 中，有一些 solr 的示例，运行起来即可体验 solr 的功能，启动 example 过程，正常需要打开命令行，cd 到 example 目录，然后运行

java -jar start.jar

启动 solr，这个在下载和安装 solr章节已有说明，现在弄了命令行小工具，可以双击启动 solr，方法如下：

cd %~dp0
%~d0
java -jar start.jar

将以上文本另存为 bat 文件，保存在 example 目录下，这样，双击该 bat 文件即可启动 solr，
跟 tomcat 的 start.bat 功能类似。没什么技术含量，纯为了方便。

标签：启动solr, 小工具

2012-0713

ReplicationHandler 的 HTTP API

暂无评论[作者：阿丁分类： solr教程 ]

可以通过以下 HTTP 命令来控制 ReplicationHandler 的操作

http://master_host:port/solr/replication?command=enablereplication

使主服务器的复制可用

http://master_host:port/solr/replication?command=disablereplication

使主服务器的复制不可用

http://host:port/solr/replication?command=indexversion

获得主服务器或从服务器最新的索引版本

http://slave_host:port/solr/replication?command=fetchindex

强制从服务器从主服务器拉取索引，该过程可以传递 <lst name=”slave”> 下的参数，如主服务的url、压缩参数等

http://slave_host:port/solr/replication?command=abortfetch

让某从服务器不再从主服务器拉取索引

http://slave_host:port/solr/replication?command=enablepoll

使某从服务器可以从主服务器拉取修改的索引

http://slave_host:port/solr/replication?command=details

返回配置和当前状态

http://host:port/solr/replication?command=filelist&indexversion=<index-version-number>

返回指定主机的索引文件列表，可以指定版本号

http://master_host:port/solr/replication?command=backup

如果有新的commit，将备份索引库，该命令在阶段备份索引时很有用

标签： ReplicationHandler

missingu1314

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Solr 和Nutch的一些资料

2012-1209Apache Nutch 1.6 发布暂无评论[作者：阿丁分类：solr教程 ]Apache Nutch 1.6 发布，该版本修复了超过 20 个 bug，新功能包括：新的 HostNormalizer，可通过 MIME-type 和 Indexer API 的功能增强来动态设置 fetchInterval ，更新 Tika 到 1.2 版本，更新
复制链接

扫一扫

专栏目录