自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 问答 (7)
  • 收藏
  • 关注

原创 版本不对导致的问题

今天版本不对导致了这个问题,找了好久,没有知识真可怕 -bash: /home/hadoop/jdk1.7.0_07/bin/java: No such file or directory 看了权限都有 这个问题是由于 linux的版本的是64位的 我的jdk是 32位导致 的...

2012-10-24 11:54:07 288

原创 hbase 多集群之间的备份

多集群之间的备份使用CopyTable 参考 http://hbase.apache.org/book/ops_mgt.html#copytable CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The usage ...

2012-08-11 16:45:55 242

原创 nutch SolrDeleteDuplicates

[img]http://dl.iteye.com/upload/attachment/0070/9722/4cd4c22a-aeae-39a3-ad52-26d98b008fc4.jpg[/img] map 使用默认的map InputFormat 负责split数据转换数据 job.setInputFormat(SolrInputFormat.class); SolrInpu...

2012-07-19 12:24:02 131

原创 nutch SolrIndexer 详解

[img]http://dl.iteye.com/upload/attachment/0070/9707/99759312-b08c-308d-b142-17c8b826763f.jpg[/img] 这个 job的 具体和 nutch1.2 index[url]http://chengqianl.iteye.com/admin/blogs/1597617[/url]一样 IndexerMap...

2012-07-18 18:33:07 157

原创 nutch1.2 DeleteDuplicates IndexMerger 详解

[img]http://dl.iteye.com/upload/attachment/0070/9571/dc62bf75-a090-399e-bf72-cb1b38a5e7c7.jpg[/img] job 1 map: 默认Mapper , 输出为key:Text url value :IndexDoc job.setInputFormat(Input...

2012-07-18 16:31:59 141

原创 nutch1.2 index 详解

首先如果存在crawl/index ,crawl/indexes目录则删除 [img]http://dl.iteye.com/upload/attachment/0070/9519/a430b9dc-5f53-30cf-8a29-9fdcfd640db8.jpg[/img] map:IndexerMapReduce map输入目录为 所有的segment的crawl_fet...

2012-07-18 15:16:56 157

原创 nutch LinkDb invert 详解

LinkDb [img]http://dl.iteye.com/upload/attachment/0070/9396/c9cab6fc-3367-3c31-9baa-1262cee8a7ee.jpg[/img] map :LinkDb 输入目录为segments目录里面所有segment下面的parse_data目录 1 首先对key:url 如果配置filter和n...

2012-07-18 14:19:59 122

原创 nutch crawdb update 详解

crawdb update [img]http://dl.iteye.com/upload/attachment/0070/9302/e36cc6e0-519e-3a58-8ae0-bdb1eef4840f.jpg[/img] map :CrawlDbFilter 这个map主要是用来合并数据的 输入,fetch产生的segment目录下面的crawl_fetch...

2012-07-18 11:01:20 145

原创 nutch fetcher详解

fetcher 是生产者和消费者的模式,生产者是QueueFeeder 不断的读取文件,消费者是 FetcherThread 不断的抓取网址 map是输入是crawl/segments/具体的segment/crawl_generate QueueFeeder [img]http://dl.iteye.com/upload/attachment/0070/8351/350c6d77...

2012-07-16 18:04:06 215

原创 nutch generator 详解

[img]http://dl.iteye.com/upload/attachment/0070/8228/5e55caae-08ec-3e9b-a2ec-dafacb1773d7.jpg[/img] job1 map Selector 输入目录为crawldb/current 输入key:Text 为url ,Value:CrawlDatum 功能如下 ...

2012-07-16 15:31:34 155

原创 nutch inject 详解

nutch的inject 有二个job 第一个job 如下图 [img]http://dl.iteye.com/upload/attachment/0070/8193/a71b6a19-b4c3-3cd6-90d8-2a490b9a61c9.jpg[/img] map :InjectMapper 功能如下 1 url是否有tab分割的k-v 对如果有记录下来, 2...

2012-07-16 14:27:21 163

原创 nutch 配置文件

NutchConfiguration 类中的初始化 public static Configuration createCrawlConfiguration() { Configuration conf = new Configuration(); addNutchResources(conf, true); return conf; } 调用 N...

2012-06-27 16:57:52 105

原创 fq 的frange查询 为啥会快

fq的frange查询,网上很多原理,其实我觉得一直没有说到原理,fq的frange 查询的快的原因是,他第一次把对应的field的值全部加载到lucene的 fieldcache里面,范围条件的结果会保存到filtercache里面。如果 查询条件命中filtercache,就从filtercache去取,如果没有命中,所以的field的值都在fieldcache里面可以很容易的比较。 而...

2012-06-04 15:50:41 192

原创 solr 的 Spatial Search

solr Spatial Search schema.xml 定义 在dataimport 的时候需要用到TemplateTransformer db-data-config.xml filed的配置如下 查询一公里内的 http://127.0.0.1:8080/solr/poi/select/?q=*%3A*&versio...

2012-05-30 16:25:47 139

原创 nutch 1.4 需要的额外的jar

nekohtml http://nekohtml.sourceforge.net/ dk.brics.automaton http://www.brics.dk/automaton/ rome http://mirrors.ibiblio.org/pub/mirrors/maven2/rome/rome/0.9/rome-0.9.jar tagsoup-1.1.3 http://www.fi...

2012-05-27 19:58:21 116

原创 solr的tdate solrj的xml的时间的格式化

使用solr的时候如果把date类型转换成tlong型数据,非常不方便,写入的时候要转换,返回的时候要转换,查询的时候要转换非常不方便,可以用tdate这个类型,使用这个有关注意事项是solr是用世界标准时间去格式化时间,所以在浏览器中你查询的出来的结果会和你传递的过去的时间不一样 solr中可以如下配置了 使用tdate的数据, solrj会自己转换他是把时间转换成标准时区的时间格...

2012-01-10 20:55:48 467

原创 ubuntu下eclipse的svn插件使用javahl

http://www.cnblogs.com/feng_013/archive/2010/07/22/1783228.html

2011-03-28 15:03:36 119

原创 python os.sysconf

http://pubs.opengroup.org/onlinepubs/009695399/functions/sysconf.html

2011-01-03 14:59:34 360

原创 Implementors

http://eclipse-tools.sourceforge.net/implementors/ eclispe alt+f3

2010-12-09 16:15:07 127

原创 OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用

OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用 在MultiTermQuery 的rewrite方法中,如果 if (pendingTerms.size() >= termCountLimit || docVisitCount >= docCountCutoff) 的就会使用MultiTermQueryWrapperFilter,如果查询...

2010-11-16 16:06:16 120

原创 OpenBitSet和OpenBitSetIterator

OpenBitSet和OpenBitSetIterator 算法的思想是用一个long的数组的index和这个这个数组的某个值的某一位表示一个数,如果是一个long数组,如果不存在重复的情况下,最大可达到64倍的压缩, 算法的实现过程以long OpenBitSet这个类实现的一个上面提到的记录数据的数组 public OpenBitSet(long numBits) { ...

2010-11-11 15:18:27 136

原创 创建IndexSearcher的时候到底做了哪些事情

大致的事情就是读取segment.gen文件,从这个文件里面的数据找出segments_x(x是下一个段的名字,是一个36进制的数)这个文件,读segments_x这个文件,因为segment_x记录的索引的segment的元数据信息,读取segment信息后,在分别初始化每个segment的reader对象SegmentReader,SegmentReader会利用内部类CoreReaders,...

2010-09-27 09:22:36 482

原创 多个term查询的步骤

多个term查询的步骤 分别查找每个term对应的结果 查询步骤 Term :a -----》tii-------》tis-------》frg 保存结果 --- TermScorer1 Term :b -----》tii-------》tis-------》frg 保存结果--- TermScorer2 得到结果集分别缓存在TermScorer二个数组里面...

2010-09-13 15:15:56 675

原创 lucene的排序和缓存的应用

Lucene的排序是通过FieldComparator及其子类实现的,以StringOrdValComparator作为例子详细说明lucene的排序的基于缓存FieldCache实现。 思路:用一个数组保存某个filed字段对应的所有的document的最大的一个term。这个数组的index就是docId,值对应所有这个filed所有term的数组的index StringOr...

2010-09-13 15:00:27 192

原创 DefaultSkipListReader查找docId

DefaultSkipListReader查找docId MultiLevelSkipListReader public MultiLevelSkipListReader(IndexInput skipStream, int maxSkipLevels, int skipInterval) { /**每个层的文件文件的IndexInput读取对象,是通过定位到每个文件的相对应的skiptab...

2010-09-02 15:33:18 183

原创 DocFieldProcessorPerField 创建的过程序列图

document的写入是通过DocFieldProcessorPerThread类做的,实际上在lucene的文件里面(_x.fdx,_x.fdt,_x.fnm)没有document的概念,存储的是filed属性和值,filed的值是存储在_x.fdt文件里面 ,field的属性是存在在_x.fnm,(属性就是是否分词,是否存储等等) 而field的写入是通过DocFieldProcessorPe...

2010-08-26 15:19:01 128

原创 DocumentsWriterThreadState 创建过程序列图

摘自org.apache.lucene.index.DocumentsWriter.DefaultIndexingChain.getChain() 注释 /* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldP...

2010-08-26 15:04:42 211

原创 lucene indexwriter的相关类图

最近在学习lucene,看的比较迷糊,所以 就把类图画了

2010-08-26 10:16:32 186

原创 zigzag编码

今天看avro ,说zig-zag编码 看了半天终于明白。 value hex 0 00 -1 01 1 02 -2 03 2 04 ... -64 7f 64 80 01 ... 文档上例子如上面,所以继续编码 那么 -3 的编码是05 3的编码是06, 算法是(n > 31) 来自 http://code.google.com/apis/p...

2010-07-06 14:25:47 955

点滴摘要防止忘记

乱码的 解决 jboss_home\server\default\deploy\jboss-web.deployer server.xml Connector 添加 URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

2010-04-22 14:42:14 94

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除