2015年03月_千丈之松

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创用Stanford Parse（智能语言处理）去实现分词器

昨天研究学习了一下 Stanford Parse ，想利用 Stanford Parse 智能切词的效果结合到lucene 分词器中的想法；由于项目时间仓促，部分研究没有完成。代码还存在bug，希望有这方面想法的小伙伴们，能完善。。 lucene版本：lucene4.10.3，引入jar包：stanford-parser-3.3.0-models.jar ，stanford-parser.jar 先构建分词器测试类，代码如下：

2015-03-26 12:03:05 3308 1

原创解决solr4.x搭建ik不能智能分词

下载IKAnalyzer-2012FF_hf1之后。与solr4.x匹配，但其文档中介绍的useSmart一直无法使用和生效。schema配置如下：  <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer" /> <!--索引时

2015-03-24 17:13:15 3489 6

翻译 nutch的定时增量爬取

脚本大致分为8部：Inject URLs（注入urls）Generate, Fetch, Parse, Update Loop（循环执行：产生待抓取URL，抓取，转换得到的页面，更新各DB）Merge Segments（合并segments）Invert Links（得到抓取到的页面的外连接数据）Index（索引）Dedup（去重）Merge Indexes（合并索引）Load new indexes（tomcat重新加载新索引目录）

2015-03-19 16:55:48 2733 3

原创爬虫nutch

爬虫，基本可以分三类： 1.分布式爬虫：Nutch 2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector 3. 非JAVA单机爬虫：scrapy Nutch:分布式爬虫 nutch背景： Apache基金会主席Hadoop之父Doug Cutting，发起开源项目lucene、nutch、hadoop，同时在hadoop领域称之hadoop之父。。通过nutch的一次

2015-03-18 19:36:55 1618

转载 Nutch相关框架安装使用最佳指南

一、nutch1.2二、nutch1.5.1三、nutch2.0四、配置SSH五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch六、安装Hadoop Cluster（分布式运行模式）并运行Nutch七、配置Ganglia监控Hadoop集群和HBase集群八、Hadoop配置Snappy压缩九、Hadoop配置Lzo压缩十、配置zooke

2015-03-13 17:57:54 1041

原创 Solr 地理空间搜索实践（Spatial Search）

在移动开发中越来越多的App都有周边搜索，有找附近的人的，附近的酒店，附近的餐馆的。。越来越多的人和企业都使用位置感知的搜索服务。创建位置感知搜索服务通常属于昂贵的专用解决方案的一部分，并且一般由地理空间专家完成。。本文实现了搜索服务器solr的地理感知这批数据。构建一个常见的业务场景：搜索周边5KM以内的宾馆，且按照距离排序。在Solr中，默认是使用GeohashPrefixTree的方式，索引下面重点介绍geohash的方式。利用Solr来实现

2015-03-10 14:18:44 7642 3