chengqianl-CSDN博客

原创版本不对导致的问题

今天版本不对导致了这个问题，找了好久，没有知识真可怕 -bash: /home/hadoop/jdk1.7.0_07/bin/java: No such file or directory 看了权限都有这个问题是由于 linux的版本的是64位的我的jdk是 32位导致的...

2012-10-24 11:54:07 288

原创 hbase 多集群之间的备份

多集群之间的备份使用CopyTable 参考 http://hbase.apache.org/book/ops_mgt.html#copytable CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The usage ...

2012-08-11 16:45:55 242

原创 nutch SolrDeleteDuplicates

[img]http://dl.iteye.com/upload/attachment/0070/9722/4cd4c22a-aeae-39a3-ad52-26d98b008fc4.jpg[/img] map 使用默认的map InputFormat 负责split数据转换数据 job.setInputFormat(SolrInputFormat.class); SolrInpu...

2012-07-19 12:24:02 131

原创 nutch SolrIndexer 详解

[img]http://dl.iteye.com/upload/attachment/0070/9707/99759312-b08c-308d-b142-17c8b826763f.jpg[/img] 这个 job的具体和 nutch1.2 index[url]http://chengqianl.iteye.com/admin/blogs/1597617[/url]一样 IndexerMap...

2012-07-18 18:33:07 157

原创 nutch1.2 DeleteDuplicates IndexMerger 详解

[img]http://dl.iteye.com/upload/attachment/0070/9571/dc62bf75-a090-399e-bf72-cb1b38a5e7c7.jpg[/img] job 1 map：默认Mapper ，输出为key：Text url value :IndexDoc job.setInputFormat(Input...

2012-07-18 16:31:59 141

原创 nutch1.2 index 详解

首先如果存在crawl/index ,crawl/indexes目录则删除 [img]http://dl.iteye.com/upload/attachment/0070/9519/a430b9dc-5f53-30cf-8a29-9fdcfd640db8.jpg[/img] map：IndexerMapReduce map输入目录为所有的segment的crawl_fet...

2012-07-18 15:16:56 157

原创 nutch LinkDb invert 详解

LinkDb [img]http://dl.iteye.com/upload/attachment/0070/9396/c9cab6fc-3367-3c31-9baa-1262cee8a7ee.jpg[/img] map :LinkDb 输入目录为segments目录里面所有segment下面的parse_data目录 1 首先对key：url 如果配置filter和n...

2012-07-18 14:19:59 122

原创 nutch crawdb update 详解

crawdb update [img]http://dl.iteye.com/upload/attachment/0070/9302/e36cc6e0-519e-3a58-8ae0-bdb1eef4840f.jpg[/img] map :CrawlDbFilter 这个map主要是用来合并数据的输入，fetch产生的segment目录下面的crawl_fetch...

2012-07-18 11:01:20 145

原创 nutch fetcher详解

fetcher 是生产者和消费者的模式，生产者是QueueFeeder 不断的读取文件，消费者是 FetcherThread 不断的抓取网址 map是输入是crawl/segments/具体的segment/crawl_generate QueueFeeder [img]http://dl.iteye.com/upload/attachment/0070/8351/350c6d77...

2012-07-16 18:04:06 215

原创 nutch generator 详解

[img]http://dl.iteye.com/upload/attachment/0070/8228/5e55caae-08ec-3e9b-a2ec-dafacb1773d7.jpg[/img] job1 map Selector 输入目录为crawldb/current 输入key:Text 为url ,Value:CrawlDatum 功能如下 ...

2012-07-16 15:31:34 155

原创 nutch inject 详解

nutch的inject 有二个job 第一个job 如下图 [img]http://dl.iteye.com/upload/attachment/0070/8193/a71b6a19-b4c3-3cd6-90d8-2a490b9a61c9.jpg[/img] map :InjectMapper 功能如下 1 url是否有tab分割的k-v 对如果有记录下来， 2...

2012-07-16 14:27:21 163

原创 nutch 配置文件

NutchConfiguration 类中的初始化 public static Configuration createCrawlConfiguration() { Configuration conf = new Configuration(); addNutchResources(conf, true); return conf; } 调用 N...

2012-06-27 16:57:52 105

原创 fq 的frange查询为啥会快

fq的frange查询，网上很多原理，其实我觉得一直没有说到原理，fq的frange 查询的快的原因是，他第一次把对应的field的值全部加载到lucene的 fieldcache里面，范围条件的结果会保存到filtercache里面。如果查询条件命中filtercache，就从filtercache去取，如果没有命中，所以的field的值都在fieldcache里面可以很容易的比较。而...

2012-06-04 15:50:41 192

原创 solr 的 Spatial Search

solr Spatial Search schema.xml 定义在dataimport 的时候需要用到TemplateTransformer db-data-config.xml filed的配置如下查询一公里内的 http://127.0.0.1:8080/solr/poi/select/?q=*%3A*&versio...

2012-05-30 16:25:47 139

nekohtml http://nekohtml.sourceforge.net/ dk.brics.automaton http://www.brics.dk/automaton/ rome http://mirrors.ibiblio.org/pub/mirrors/maven2/rome/rome/0.9/rome-0.9.jar tagsoup-1.1.3 http://www.fi...

2012-05-27 19:58:21 116

原创 solr的tdate solrj的xml的时间的格式化

使用solr的时候如果把date类型转换成tlong型数据，非常不方便，写入的时候要转换，返回的时候要转换，查询的时候要转换非常不方便，可以用tdate这个类型，使用这个有关注意事项是solr是用世界标准时间去格式化时间，所以在浏览器中你查询的出来的结果会和你传递的过去的时间不一样 solr中可以如下配置了使用tdate的数据， solrj会自己转换他是把时间转换成标准时区的时间格...

2012-01-10 20:55:48 467

原创 ubuntu下eclipse的svn插件使用javahl

http://www.cnblogs.com/feng_013/archive/2010/07/22/1783228.html

2011-03-28 15:03:36 119

原创 python os.sysconf

http://pubs.opengroup.org/onlinepubs/009695399/functions/sysconf.html

2011-01-03 14:59:34 360

原创 Implementors

http://eclipse-tools.sourceforge.net/implementors/ eclispe alt+f3

2010-12-09 16:15:07 127

原创 OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用

OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用在MultiTermQuery 的rewrite方法中，如果 if (pendingTerms.size() >= termCountLimit || docVisitCount >= docCountCutoff) 的就会使用MultiTermQueryWrapperFilter，如果查询...

2010-11-16 16:06:16 120

原创 OpenBitSet和OpenBitSetIterator

OpenBitSet和OpenBitSetIterator 算法的思想是用一个long的数组的index和这个这个数组的某个值的某一位表示一个数，如果是一个long数组，如果不存在重复的情况下，最大可达到64倍的压缩，算法的实现过程以long OpenBitSet这个类实现的一个上面提到的记录数据的数组 public OpenBitSet(long numBits) { ...

2010-11-11 15:18:27 136

原创创建IndexSearcher的时候到底做了哪些事情

大致的事情就是读取segment.gen文件，从这个文件里面的数据找出segments_x（x是下一个段的名字，是一个36进制的数）这个文件，读segments_x这个文件，因为segment_x记录的索引的segment的元数据信息，读取segment信息后，在分别初始化每个segment的reader对象SegmentReader，SegmentReader会利用内部类CoreReaders，...

2010-09-27 09:22:36 482

原创多个term查询的步骤

多个term查询的步骤分别查找每个term对应的结果查询步骤 Term ：a -----》tii-------》tis-------》frg 保存结果 --- TermScorer1 Term ：b -----》tii-------》tis-------》frg 保存结果--- TermScorer2 得到结果集分别缓存在TermScorer二个数组里面...

2010-09-13 15:15:56 675

原创 lucene的排序和缓存的应用

Lucene的排序是通过FieldComparator及其子类实现的，以StringOrdValComparator作为例子详细说明lucene的排序的基于缓存FieldCache实现。思路：用一个数组保存某个filed字段对应的所有的document的最大的一个term。这个数组的index就是docId，值对应所有这个filed所有term的数组的index StringOr...

2010-09-13 15:00:27 192

原创 DefaultSkipListReader查找docId

DefaultSkipListReader查找docId MultiLevelSkipListReader public MultiLevelSkipListReader(IndexInput skipStream, int maxSkipLevels, int skipInterval) { /**每个层的文件文件的IndexInput读取对象，是通过定位到每个文件的相对应的skiptab...

2010-09-02 15:33:18 183

原创 DocFieldProcessorPerField 创建的过程序列图

document的写入是通过DocFieldProcessorPerThread类做的，实际上在lucene的文件里面（_x.fdx,_x.fdt,_x.fnm）没有document的概念，存储的是filed属性和值，filed的值是存储在_x.fdt文件里面，field的属性是存在在_x.fnm，（属性就是是否分词，是否存储等等）而field的写入是通过DocFieldProcessorPe...

2010-08-26 15:19:01 128

原创 DocumentsWriterThreadState 创建过程序列图

摘自org.apache.lucene.index.DocumentsWriter.DefaultIndexingChain.getChain() 注释 /* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldP...

2010-08-26 15:04:42 211

原创 lucene indexwriter的相关类图

最近在学习lucene，看的比较迷糊，所以就把类图画了

2010-08-26 10:16:32 186

原创 zigzag编码

今天看avro ，说zig-zag编码看了半天终于明白。 value hex 0 00 -1 01 1 02 -2 03 2 04 ... -64 7f 64 80 01 ... 文档上例子如上面，所以继续编码那么 -3 的编码是05 3的编码是06，算法是(n > 31) 来自 http://code.google.com/apis/p...

2010-07-06 14:25:47 955

点滴摘要防止忘记

乱码的解决 jboss_home\server\default\deploy\jboss-web.deployer server.xml Connector 添加 URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

2010-04-22 14:42:14 94

chengqianl的专栏