自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

千丈之松的专栏

实践是最好的成长、发表是最好的记忆!!

  • 博客(6)
  • 资源 (6)
  • 收藏
  • 关注

原创 用Stanford Parse(智能语言处理)去实现分词器

昨天研究学习了一下 Stanford Parse ,想利用 Stanford Parse 智能切词的效果结合到lucene 分词器中的想法;由于项目时间仓促,部分研究没有完成。代码还存在bug,希望有这方面想法的小伙伴们,能完善。。 lucene版本:lucene4.10.3,引入jar包:stanford-parser-3.3.0-models.jar ,stanford-parser.jar 先构建分词器测试类,代码如下:

2015-03-26 12:03:05 3308 1

原创 解决solr4.x搭建ik不能智能分词

下载IKAnalyzer-2012FF_hf1之后。与solr4.x匹配,但其文档中介绍的useSmart一直无法使用和生效。schema配置如下: <!--配置IK分词器--> <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer" /> <!--索引时

2015-03-24 17:13:15 3489 6

翻译 nutch的定时增量爬取

脚本大致分为8部:Inject URLs(注入urls)Generate, Fetch, Parse, Update Loop(循环执行:产生待抓取URL,抓取,转换得到的页面,更新各DB)Merge Segments(合并segments)Invert Links(得到抓取到的页面的外连接数据)Index(索引)Dedup(去重)Merge Indexes(合并索引)Load new indexes(tomcat重新加载新索引目录)

2015-03-19 16:55:48 2733 3

原创 爬虫nutch

爬虫,基本可以分三类: 1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 3. 非JAVA单机爬虫:scrapy Nutch:分布式爬虫 nutch背景: Apache基金会主席Hadoop之父Doug Cutting,发起开源项目lucene、nutch、hadoop,同时在hadoop领域称之hadoop之父。。通过nutch的一次

2015-03-18 19:36:55 1618

转载 Nutch相关框架安装使用最佳指南

一、nutch1.2二、nutch1.5.1三、nutch2.0四、配置SSH五、安装Hadoop Cluster(伪分布式运行模式)并运行Nutch六、安装Hadoop Cluster(分布式运行模式)并运行Nutch七、配置Ganglia监控Hadoop集群和HBase集群八、Hadoop配置Snappy压缩九、Hadoop配置Lzo压缩 十、配置zooke

2015-03-13 17:57:54 1041

原创 Solr 地理空间搜索实践(Spatial Search)

在移动开发中越来越多的App都有周边搜索,有找附近的人的,附近的酒店,附近的餐馆的。。越来越多的人和企业都使用位置感知的搜索服务。创建位置感知搜索服务通常属于昂贵的专用解决方案的一部分,并且一般由地理空间专家完成。。本文实现了搜索服务器solr的地理感知这批数据。 构建一个常见的业务场景: 搜索周边5KM以内的宾馆,且按照距离排序。 在Solr中,默认是使用GeohashPrefixTree的方式,索引下面重点介绍geohash的方式。利用Solr来实现

2015-03-10 14:18:44 7642 3

算法导论.pdf

算法导论

2014-12-15

HADOOP初级安装培训资料

HADOOP初级安装培训资料

2014-10-11

hadoop-0.20.2.tar.gz

hadoop-0.20.2.tar.gz

2014-10-11

JAVA反编译工具

JAVA反编译工具

2014-10-11

CnPlugin plsql快捷键设置工具包

plugins plsql快捷键设置。 plugins plsql快捷键设置。 plugins plsql快捷键设置。 plugins plsql快捷键设置。 plugins plsql快捷键设置。

2014-10-11

IK Analyzer 2012FF_hf1.zip 分词

IK的2012系列的分词器!做搜索引擎初学者的

2014-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除