- 博客(6)
- 资源 (6)
- 收藏
- 关注
原创 用Stanford Parse(智能语言处理)去实现分词器
昨天研究学习了一下 Stanford Parse ,想利用 Stanford Parse 智能切词的效果结合到lucene 分词器中的想法;由于项目时间仓促,部分研究没有完成。代码还存在bug,希望有这方面想法的小伙伴们,能完善。。 lucene版本:lucene4.10.3,引入jar包:stanford-parser-3.3.0-models.jar ,stanford-parser.jar 先构建分词器测试类,代码如下:
2015-03-26 12:03:05 3308 1
原创 解决solr4.x搭建ik不能智能分词
下载IKAnalyzer-2012FF_hf1之后。与solr4.x匹配,但其文档中介绍的useSmart一直无法使用和生效。schema配置如下: <!--配置IK分词器--> <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer" /> <!--索引时
2015-03-24 17:13:15 3489 6
翻译 nutch的定时增量爬取
脚本大致分为8部:Inject URLs(注入urls)Generate, Fetch, Parse, Update Loop(循环执行:产生待抓取URL,抓取,转换得到的页面,更新各DB)Merge Segments(合并segments)Invert Links(得到抓取到的页面的外连接数据)Index(索引)Dedup(去重)Merge Indexes(合并索引)Load new indexes(tomcat重新加载新索引目录)
2015-03-19 16:55:48 2733 3
原创 爬虫nutch
爬虫,基本可以分三类: 1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 3. 非JAVA单机爬虫:scrapy Nutch:分布式爬虫 nutch背景: Apache基金会主席Hadoop之父Doug Cutting,发起开源项目lucene、nutch、hadoop,同时在hadoop领域称之hadoop之父。。通过nutch的一次
2015-03-18 19:36:55 1618
转载 Nutch相关框架安装使用最佳指南
一、nutch1.2二、nutch1.5.1三、nutch2.0四、配置SSH五、安装Hadoop Cluster(伪分布式运行模式)并运行Nutch六、安装Hadoop Cluster(分布式运行模式)并运行Nutch七、配置Ganglia监控Hadoop集群和HBase集群八、Hadoop配置Snappy压缩九、Hadoop配置Lzo压缩 十、配置zooke
2015-03-13 17:57:54 1041
原创 Solr 地理空间搜索实践(Spatial Search)
在移动开发中越来越多的App都有周边搜索,有找附近的人的,附近的酒店,附近的餐馆的。。越来越多的人和企业都使用位置感知的搜索服务。创建位置感知搜索服务通常属于昂贵的专用解决方案的一部分,并且一般由地理空间专家完成。。本文实现了搜索服务器solr的地理感知这批数据。 构建一个常见的业务场景: 搜索周边5KM以内的宾馆,且按照距离排序。 在Solr中,默认是使用GeohashPrefixTree的方式,索引下面重点介绍geohash的方式。利用Solr来实现
2015-03-10 14:18:44 7642 3
CnPlugin plsql快捷键设置工具包
2014-10-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人