lemo的专栏

Don't Grow Old - Grow Up!

Blog 搬新家了

由于朋友送了一个空间,现在把一些这个博客中的原创内容都搬到新家中去。 地址为www.lemolu.com 以后这个博客就不更新了。 多谢大家这么久以来的支持与关心。

2012-11-08 14:32:37

阅读数 3054

评论数 0

Nutch 2.0 之 抓取流程简单分析

Nutch 2.0 抓取流程介绍 --------------------- 1. 整体流程 InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => Solr...

2012-07-23 23:41:26

阅读数 10063

评论数 9

Nutch 2.0 之 Apache Gora MR介绍

Nutch 2.0 之 Apache Gora MR介绍 ----------------- 1. 介绍   Apapche Gora内建了对于Apache Hadoop的支持,而Gora的dataStore可以用来做为InputFormat与OutputFormat的输入与输出,然...

2012-07-21 15:05:50

阅读数 4767

评论数 1

Nutch2.0 之 Apache Gora 介绍

Nutch 2.0  之 Apache Gora介绍 ----------------- 1. 什么是Apache Gora   Apache Gora是一个开源的ORM框架,主要为大数据提供内存数据模型与数据的持久化。目前Gora支持对于列数据、key-value数据,文档数据与R...

2012-07-20 22:43:20

阅读数 20222

评论数 1

Nutch 2.0 终于来了

Nutch 2.0 终于来了 ------------------------- 带着大部分人的期待,Nutch 2.0终于发布了,它在Nutch 1.x的基础上做了比较大的改变,主要还是在它的存储层的抽象上,Nutch 2.0的计划最终由使用者对于Nutch对No-sql的不支持而建立起...

2012-07-17 00:07:35

阅读数 4588

评论数 0

Xapian 学习笔记 4 分面搜索

Xapian 学习笔记 4 分面搜索 ------------------------ 1. 什么是分面搜索    分面搜索使用户可以动态的对用户所查询的命中文档进行特定属性的聚合,分面搜索在很多地方都有应用,特别昌电子商场中,用户输入一个查询条件,服务器返回这个查询所命中的文档的分类信息,...

2012-06-01 15:13:48

阅读数 5671

评论数 1

Xapian 学习笔记 3 相关字段的排序

Xapian 学习笔记 3 相关字段的排序 在Xapina中,命中文档的排序是以文档的相关度降序来做的,当两个文档的相关度一样时,按文档id的升序来做,你也可以通过设置enquire.set_docid_order(enquire.DESCENDING)来把其变成降序,或者设置成不关心文档i...

2012-05-31 17:31:29

阅读数 5671

评论数 0

Xapian 学习笔记 2 相关概念

Xapian 学习笔记 2 一些概念 --------------------------- 1. 同步概念    Xapian没有显示的支持多线程,为了避免不必要的线程死锁,Xapian没有使用任何全局变量,所以你可以你的多线程应用中放心的使用Xapain对象,但是一些Xapian对象内部...

2012-05-30 13:34:35

阅读数 6491

评论数 0

Xapian学习笔记 1 介绍

Xapian介绍  ---------- 1. 简单介绍    Xapian 是一个开源的搜索引擎库,是用C++来编写的,准许GPL协议(http://www.opensource.org/licenses/gpl-license.php),它现在可以与Perl,python,PHP...

2012-05-24 15:38:39

阅读数 8259

评论数 1

Nutch 1.3 学习笔记 外传 扩展Nutch插件实现自定义索引字段

扩展Nutch插件实现自定义索引字段 1.Nutch与Solr的使用介绍   1.1 一些基本的配置 在conf/nutch-site.xml加入http.agent.name的属性 生成一个种子文件夹,mkdir -p urls,在其中生成一个种子文件,在这个文件中写入一个url,如h...

2012-04-25 10:23:49

阅读数 6342

评论数 6

如何使用MongoDB自带的json库来反序列json字符串

需求: 在对mongodb中的字段值进行解析的时候发现,因为这个值是json字符串,需要对其进行反序列化。 解决方法: 首先想到了到http://www.json.org/json-zh.html网站去找相应的C++库,试了一下jsoncpp和JSON Spirit,因为是用scons来...

2012-03-23 17:46:18

阅读数 10638

评论数 0

在Centos上安装RabbitMQ流程

在Centos上安装RabbitMQ流程 ------------------------ 1. 需求    由于项目中要用到消息队列,经过ActiveMQ与RabbitMQ的比较,最终选择了RabbbitMQ做为我们的消息系统,但是ActiveMQ在效率和可扩展性上都不错,只是网上很多...

2011-12-15 15:35:44

阅读数 13262

评论数 0

使用awk对文档中特定字段的排序

使用awk对文档中特定字段的排序 ---------------------------------------------------- 1. 问题定义 现在要对如下文档按特定字段排序, lemo@debian:~/Testspace/awk$ cat file Name Sex Sal...

2011-11-17 23:47:48

阅读数 11745

评论数 1

Hadoop 之 Secondary Sort介绍

Hadoop 之 Secondary Sort介绍 --------------------------- 我们知道,在reduce之前,MP框架会对收到的对按K进行排序,而对于一个特定的K来说,它的List是没有被排过序的,就是说这些V是无序的,因为它们来自不同的Map端,而且很多应用也不依...

2011-11-10 14:41:09

阅读数 10791

评论数 1

emacs Magit简单介绍

emacs Magit简单介绍 --------------------- 1. 什么是Magit    在介绍Magit之前,我们先来了解一下什么是Git,Git 是 Linux Torvalds 为了帮助管理 Linux® 内核开发而开发的一个开放源码的版本控制软件,它是一个快速...

2011-11-03 13:45:03

阅读数 9610

评论数 0

Boost Tokenizer 使用介绍

Boost Tokenizer 使用介绍 ------------------------- 1. 介绍 Boost Tokenizer提供了一种把字符序列转换成一组Token的能力,当然,你也可以定义TokenizerFunction来自定义序列的切分符号,如果不指定,默认是以空格为分割,...

2011-11-03 11:13:28

阅读数 4092

评论数 0

Nutch 1.3 学习笔记 12 Nutch 2.0 的主要变化

Nutch 2.0 的主要一些变化 1. Storage Abstraction    initially with back end implementations for HBase and HDFS    extend it to other storages l

2011-09-20 14:27:13

阅读数 4979

评论数 1

Nutch 1.3 学习笔记 11-2 页面评分机制 LinkRank 介绍

刚试了一把Google翻译,感觉不是可以的。 下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容,是关于Nutch 新的链接分数算法的说明,有点类似于Google的PageRank,这里有其运行的一个例子http://wi

2011-09-20 13:50:42

阅读数 7706

评论数 1

Nutch 1.3 学习笔记 11-1 页面评分机制 OPIC

Nutch 1.3 学习笔记 11-1 页面评分机制 OPIC -------------------------------------- 1. Nutch 1.3 的页面评分机制    Nutch1.3目前默认还是使用OPIC作为其网页分数算法,但其之后,已经引入了Pa

2011-09-20 13:46:47

阅读数 6018

评论数 0

Nutch 1.3 学习笔记 10-3 插件机制分析

Nutch 1.3 学习笔记 10-3 插件机制分析 ------------------------------------- 1. 一些对象说明  PluginRepository:这是一个用于存储所有插件描述对象(PluginDescriptor),插件扩展点

2011-09-18 00:19:08

阅读数 4442

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭