自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Nutch中纠结我的classpath

最近在改写nutch的过程中遇到了多个classpath方面的问题,一时间暴露了我java基本功的缺乏,同时也暴露出了依赖eclipse所造成的恶果。下面将我遇到的问题总结出来,如果大家遇到了也可以尽快脱困。 (1)在nutch中本来存在的类,在eclipse运行时报错说找不到。 这个可能性还是比较大的。我当时的解决方法正如那篇在eclipse上编译nutch的文章,把工程项目设置成用...

2010-10-16 10:36:48 85

原创 网络爬虫Larbin的学习(四)——基本数据结构

这一回介绍Larin中的基本数据结构,其实这一部分对于每一个高水平的程序来说,都是相似的,但是在此还是废话一下。 首先从我接触到的第一个数据结构开始(因为我在详细阅读代码前首先做了些源代码修改工作)——Vector (1)%LARBIN_HOME%/src/utils/Vector 这个类唯一值得一提的就是他的存储空间优化机制。这在大量的数据结构中都有。 它有两个成员变量: ...

2010-09-16 17:16:08 174

原创 网络爬虫Larbin的学习(三)——整体架构

这一回开始对Larbin的源代码进行学习。经过一段时间的学习,我发现larbin的架构还是不错的。而且他的架构中使用到了许多技术,在阅读源代码的过程中也可以捡起以前学过的东西。 进入%LARBIN_HOME%/src,我们可以看到许多源文件,这些源文件主要分为两大类: (1)主控类 main.cc : 主控程序,调度所有代码进行工作 global.h,global.cc : 实际上...

2010-09-16 17:02:04 113

网络爬虫Larbin的学习(二)——larbin定制化

这篇主要讲larbin的配置问题,由于作者已经讲得很详细,在此我只把原文进行翻译提炼: (1)larbin对外的接口 作者为我们提供了一个文件,叫做%LARBIN_HOME%/src/interf/useroutput.cc,用户可以在这里面进行一些扩展操作。 具体的借口请看%LARBIN_HOME%/src/interf/useroutput.h,实现在上面的文件中。larbin自...

2010-09-14 10:45:27 145

网络爬虫Larbin的学习(一)——larbin的配置

Larbin是一款历史比较悠久的网络爬虫程序,它基于C/C++编写。 目前它可以在linux下运行,对于windows下的运行情况目前尚不清楚(可能需要进行修改) 对于网络爬虫的基础知识,在此不做太多的介绍,本文只对爬虫的配置进行解说。 由于larbin的年头比较远(作者从上世纪开始编写),里面难免有一些与现在系统不一致的情况(作者于2003年停止了维护),所以我们在配置中需要修...

2010-09-14 10:01:07 201

原创 Install RPM Package on Ubuntu LInux

source document url:[url]http://www.examda.com/linux/fudao/20071203/091041686.html[/url] Ubuntu的软件包格式是deb ,如果要安装rpm 的包,则要先用alien 把rpm转换成deb. sudo apt-get install alien #alien 默认没有安装,所以首先要安装它...

2010-09-11 14:24:37 120

原创 转载: linux lsof详解

source of the document:[url]http://blog.csdn.net/guoguo1980/archive/2008/04/24/2324454.aspx[/url] lsof简介 lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬...

2010-09-11 13:43:58 71

原创 2010-09-11

(1)read the code of larbin , try to add the filter feature into the crawler. (2)read the book of Information Retrieval

2010-09-11 08:27:00 76

原创 2010-09-10

将完成任务 (1)pro hadoop的tuning章节 (2)google File System paper (3)complete the test on nutch searching on depth of 3. week end task (1)read the source code of nutch

2010-09-10 08:49:51 95

原创 HDFS学习总结

(1)安装配置过程 a.构建配置文件 conf/hadoop-env.sh conf/hadoop-site.xml fs.default.name hadoop.tmp.dir conf/slaves,conf/master b.将安装包分发至各个机器上 chown 改成自己的 c....

2010-09-09 14:37:46 154

原创 2010-09-08

(1)学习了基本的hadoop源码分析,对hadoop的内部结构有了一定的了解,但不深入 (2)阅读了两篇Introduction to Nutch,对Nutch的基本结构和实现有了一定的了解,下一步将对这两篇文章进行详细阅读和提炼 明天 (1)提炼两篇文章 (2)继续提炼pro hadoop中HDFS章节的内容 后天 (1)提炼mapreduce章节的内容 (2)寻找其他的...

2010-09-08 19:33:06 75

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除