- 博客(30)
- 问答 (7)
- 收藏
- 关注
原创 版本不对导致的问题
今天版本不对导致了这个问题,找了好久,没有知识真可怕 -bash: /home/hadoop/jdk1.7.0_07/bin/java: No such file or directory 看了权限都有 这个问题是由于 linux的版本的是64位的 我的jdk是 32位导致 的...
2012-10-24 11:54:07 288
原创 hbase 多集群之间的备份
多集群之间的备份使用CopyTable 参考 http://hbase.apache.org/book/ops_mgt.html#copytable CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The usage ...
2012-08-11 16:45:55 242
原创 nutch SolrDeleteDuplicates
[img]http://dl.iteye.com/upload/attachment/0070/9722/4cd4c22a-aeae-39a3-ad52-26d98b008fc4.jpg[/img] map 使用默认的map InputFormat 负责split数据转换数据 job.setInputFormat(SolrInputFormat.class); SolrInpu...
2012-07-19 12:24:02 131
原创 nutch SolrIndexer 详解
[img]http://dl.iteye.com/upload/attachment/0070/9707/99759312-b08c-308d-b142-17c8b826763f.jpg[/img] 这个 job的 具体和 nutch1.2 index[url]http://chengqianl.iteye.com/admin/blogs/1597617[/url]一样 IndexerMap...
2012-07-18 18:33:07 157
原创 nutch1.2 DeleteDuplicates IndexMerger 详解
[img]http://dl.iteye.com/upload/attachment/0070/9571/dc62bf75-a090-399e-bf72-cb1b38a5e7c7.jpg[/img] job 1 map: 默认Mapper , 输出为key:Text url value :IndexDoc job.setInputFormat(Input...
2012-07-18 16:31:59 141
原创 nutch1.2 index 详解
首先如果存在crawl/index ,crawl/indexes目录则删除 [img]http://dl.iteye.com/upload/attachment/0070/9519/a430b9dc-5f53-30cf-8a29-9fdcfd640db8.jpg[/img] map:IndexerMapReduce map输入目录为 所有的segment的crawl_fet...
2012-07-18 15:16:56 157
原创 nutch LinkDb invert 详解
LinkDb [img]http://dl.iteye.com/upload/attachment/0070/9396/c9cab6fc-3367-3c31-9baa-1262cee8a7ee.jpg[/img] map :LinkDb 输入目录为segments目录里面所有segment下面的parse_data目录 1 首先对key:url 如果配置filter和n...
2012-07-18 14:19:59 122
原创 nutch crawdb update 详解
crawdb update [img]http://dl.iteye.com/upload/attachment/0070/9302/e36cc6e0-519e-3a58-8ae0-bdb1eef4840f.jpg[/img] map :CrawlDbFilter 这个map主要是用来合并数据的 输入,fetch产生的segment目录下面的crawl_fetch...
2012-07-18 11:01:20 145
原创 nutch fetcher详解
fetcher 是生产者和消费者的模式,生产者是QueueFeeder 不断的读取文件,消费者是 FetcherThread 不断的抓取网址 map是输入是crawl/segments/具体的segment/crawl_generate QueueFeeder [img]http://dl.iteye.com/upload/attachment/0070/8351/350c6d77...
2012-07-16 18:04:06 215
原创 nutch generator 详解
[img]http://dl.iteye.com/upload/attachment/0070/8228/5e55caae-08ec-3e9b-a2ec-dafacb1773d7.jpg[/img] job1 map Selector 输入目录为crawldb/current 输入key:Text 为url ,Value:CrawlDatum 功能如下 ...
2012-07-16 15:31:34 155
原创 nutch inject 详解
nutch的inject 有二个job 第一个job 如下图 [img]http://dl.iteye.com/upload/attachment/0070/8193/a71b6a19-b4c3-3cd6-90d8-2a490b9a61c9.jpg[/img] map :InjectMapper 功能如下 1 url是否有tab分割的k-v 对如果有记录下来, 2...
2012-07-16 14:27:21 163
原创 nutch 配置文件
NutchConfiguration 类中的初始化 public static Configuration createCrawlConfiguration() { Configuration conf = new Configuration(); addNutchResources(conf, true); return conf; } 调用 N...
2012-06-27 16:57:52 105
原创 fq 的frange查询 为啥会快
fq的frange查询,网上很多原理,其实我觉得一直没有说到原理,fq的frange 查询的快的原因是,他第一次把对应的field的值全部加载到lucene的 fieldcache里面,范围条件的结果会保存到filtercache里面。如果 查询条件命中filtercache,就从filtercache去取,如果没有命中,所以的field的值都在fieldcache里面可以很容易的比较。 而...
2012-06-04 15:50:41 192
原创 solr 的 Spatial Search
solr Spatial Search schema.xml 定义 在dataimport 的时候需要用到TemplateTransformer db-data-config.xml filed的配置如下 查询一公里内的 http://127.0.0.1:8080/solr/poi/select/?q=*%3A*&versio...
2012-05-30 16:25:47 139
原创 nutch 1.4 需要的额外的jar
nekohtml http://nekohtml.sourceforge.net/ dk.brics.automaton http://www.brics.dk/automaton/ rome http://mirrors.ibiblio.org/pub/mirrors/maven2/rome/rome/0.9/rome-0.9.jar tagsoup-1.1.3 http://www.fi...
2012-05-27 19:58:21 116
原创 solr的tdate solrj的xml的时间的格式化
使用solr的时候如果把date类型转换成tlong型数据,非常不方便,写入的时候要转换,返回的时候要转换,查询的时候要转换非常不方便,可以用tdate这个类型,使用这个有关注意事项是solr是用世界标准时间去格式化时间,所以在浏览器中你查询的出来的结果会和你传递的过去的时间不一样 solr中可以如下配置了 使用tdate的数据, solrj会自己转换他是把时间转换成标准时区的时间格...
2012-01-10 20:55:48 467
原创 ubuntu下eclipse的svn插件使用javahl
http://www.cnblogs.com/feng_013/archive/2010/07/22/1783228.html
2011-03-28 15:03:36 119
原创 python os.sysconf
http://pubs.opengroup.org/onlinepubs/009695399/functions/sysconf.html
2011-01-03 14:59:34 360
原创 Implementors
http://eclipse-tools.sourceforge.net/implementors/ eclispe alt+f3
2010-12-09 16:15:07 127
原创 OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用
OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用 在MultiTermQuery 的rewrite方法中,如果 if (pendingTerms.size() >= termCountLimit || docVisitCount >= docCountCutoff) 的就会使用MultiTermQueryWrapperFilter,如果查询...
2010-11-16 16:06:16 120
原创 OpenBitSet和OpenBitSetIterator
OpenBitSet和OpenBitSetIterator 算法的思想是用一个long的数组的index和这个这个数组的某个值的某一位表示一个数,如果是一个long数组,如果不存在重复的情况下,最大可达到64倍的压缩, 算法的实现过程以long OpenBitSet这个类实现的一个上面提到的记录数据的数组 public OpenBitSet(long numBits) { ...
2010-11-11 15:18:27 136
原创 创建IndexSearcher的时候到底做了哪些事情
大致的事情就是读取segment.gen文件,从这个文件里面的数据找出segments_x(x是下一个段的名字,是一个36进制的数)这个文件,读segments_x这个文件,因为segment_x记录的索引的segment的元数据信息,读取segment信息后,在分别初始化每个segment的reader对象SegmentReader,SegmentReader会利用内部类CoreReaders,...
2010-09-27 09:22:36 482
原创 多个term查询的步骤
多个term查询的步骤 分别查找每个term对应的结果 查询步骤 Term :a -----》tii-------》tis-------》frg 保存结果 --- TermScorer1 Term :b -----》tii-------》tis-------》frg 保存结果--- TermScorer2 得到结果集分别缓存在TermScorer二个数组里面...
2010-09-13 15:15:56 675
原创 lucene的排序和缓存的应用
Lucene的排序是通过FieldComparator及其子类实现的,以StringOrdValComparator作为例子详细说明lucene的排序的基于缓存FieldCache实现。 思路:用一个数组保存某个filed字段对应的所有的document的最大的一个term。这个数组的index就是docId,值对应所有这个filed所有term的数组的index StringOr...
2010-09-13 15:00:27 192
原创 DefaultSkipListReader查找docId
DefaultSkipListReader查找docId MultiLevelSkipListReader public MultiLevelSkipListReader(IndexInput skipStream, int maxSkipLevels, int skipInterval) { /**每个层的文件文件的IndexInput读取对象,是通过定位到每个文件的相对应的skiptab...
2010-09-02 15:33:18 183
原创 DocFieldProcessorPerField 创建的过程序列图
document的写入是通过DocFieldProcessorPerThread类做的,实际上在lucene的文件里面(_x.fdx,_x.fdt,_x.fnm)没有document的概念,存储的是filed属性和值,filed的值是存储在_x.fdt文件里面 ,field的属性是存在在_x.fnm,(属性就是是否分词,是否存储等等) 而field的写入是通过DocFieldProcessorPe...
2010-08-26 15:19:01 128
原创 DocumentsWriterThreadState 创建过程序列图
摘自org.apache.lucene.index.DocumentsWriter.DefaultIndexingChain.getChain() 注释 /* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldP...
2010-08-26 15:04:42 211
原创 zigzag编码
今天看avro ,说zig-zag编码 看了半天终于明白。 value hex 0 00 -1 01 1 02 -2 03 2 04 ... -64 7f 64 80 01 ... 文档上例子如上面,所以继续编码 那么 -3 的编码是05 3的编码是06, 算法是(n > 31) 来自 http://code.google.com/apis/p...
2010-07-06 14:25:47 955
点滴摘要防止忘记
乱码的 解决 jboss_home\server\default\deploy\jboss-web.deployer server.xml Connector 添加 URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
2010-04-22 14:42:14 94
空空如也
java快速读取文本文件最后一行数据内容,文本文件非常大
2010-05-20
线程的内存模型的疑问
2010-03-23
Eclipse 自动生成类的注释
2010-03-01
java虚拟机方面的好书
2009-08-27
jboss查找配置文件的顺序
2009-08-12
oracle 连接的问题
2009-07-27
python hello world 程序 出错
2009-07-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人