自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(55)
  • 收藏
  • 关注

转载 Python创建类的时候,是否继承object问题

在python中,创建类可以这样:[html] view plaincopyclass A:        pass  也可以这样:[html] view plaincopyclass A(object):        pass  那么二者有什么区别和联系呢?看

2013-04-27 14:31:31 618

转载 [初学python]新类(new-style class)

类(class)也是对象在python之中,万物皆对象。类也是对象。“类的类”就被称为元类(即类是元类的实例)。正如类的实例的行为取决于类,元类的实例(类)的行为也取决于元类。new-style classes的由来new-style classes是python在2.2版本所加入的一个重要特性。所有的内建类型都是new-style classes。引入new-style clas

2013-04-27 14:30:15 682

转载 中文分词之Java实现使用IK Analyzer实现

IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例

2013-02-27 10:48:20 487 1

转载 java多线程读写同一个文件的代码

本文提供java多线程分别定时读写同一个文件的样例,其中两个线程,一个每分钟写入当前时间到指定文件,另一个线程读出每分钟新写的内容。使用简单的Thread.sleep技术实现定时package test.thread;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;

2012-12-11 17:07:39 727

转载 HBase简介(很好的梳理资料)

一、 简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop

2012-11-20 14:51:53 324

转载 Heritrix源码分析(十五) 各种问题总结

开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之前写博客那样从源码的角度去考虑了.这里就起个抛砖引玉的作用吧,希望能有点用.这篇博客会不断更新,如有其他问题,请留言......

2012-11-14 15:57:45 318

转载 Heritrix源码分析(十四) 如何让Heritrix不间断的抓取

近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落。今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取,目前他是写个定时器,定时检查Heritrix是否停止,如果停止了则重新初始化Heritrix,让Heritrix重新抓取,但这个方法就不可避免的会导致抓取重复URl,除非从recover.gz导入)

2012-11-14 15:56:06 370

转载 Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650744     本博客已迁移到本人独立博客: http://www.yun5u.com/        上一篇博客主要介绍了CrawlController的各个属性,博客地址:http://guoyunsky.iteye.com/blog/650744 ,以

2012-11-14 15:54:49 650

转载 Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650694       CrawlController的确是Heritrix的大脑,在Heritrix中拥有无上的权利!可以控制Heritrix的启动、暂停、停止,也定时进行数据统计、数据汇报和文件管理。同时CrawlController也基本上贯穿整个Heritr

2012-11-14 15:53:27 309

转载 Heritrix源码分析(十一) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649889        Url是爬虫的核心,因为爬虫就是依赖URL一层一层的抓取下去,最后完成整个抓取。Heritrix中的URL比较特殊,有以下继承关系(由于不对继承关系作介绍,所以这里就不画图了):          1)org.archive.crawl

2012-11-14 15:50:19 334

转载 Heritrix源码分析(十) Heritrix中的Http Status Code(Http状态码)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737       以前在做Web开发的时候就接触过一些HttpStatus Code,比如404,500.后来接触Heritrix之后才知道HttpStatus Code竟然有如此之多。不一样的HttpStatus Code就代表不一样的Http状态,简单的如成功

2012-11-14 15:48:38 508

转载 Heritrix源码分析(九)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396       前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理,同时还有checkpoint(备份中心)。所以只要通过A上的日志就可以完全按照该基础A继续抓取,不会重复抓取任何A抓过的

2012-11-14 15:46:29 402

转载 Heritrix源码分析(八) Heritrix8个处理器(Processor)介绍

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/643367       Heritrix采用多线程去抓取数据,每次运行基本都要经过以下8个处理器处理(种子URL、先决条件URL除外),如此形成一整个流程。下面就大概介绍下每个处理器的作用以及大概处理的步骤。以后分析源码的时候再细节分析.

2012-11-14 15:42:42 266

转载 Heritrix源码分析(七) Heritrix总体介绍

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642794        本博客已迁移到本人独立博客: http://www.yun5u.com/         欢迎加入Heritrix群(QQ):109148319,10447185  , Lucene/Solr群(QQ) :  118972724

2012-11-14 15:39:12 312

转载 Heritrix源码分析(六) Heritrix的文件结构分析

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642618         每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图

2012-11-14 15:36:28 441

转载 Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642550       在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种:一种是通过tomcat或者JBOSS或者Jetty等Web容器,还有一种自然就是不通过Web直接编程运行。由于第二种方式更适合调试、研究代码,所以

2012-11-14 15:34:54 424

转载 Heritrix源码分析(四) 各个类说明(二)

9.org.archive.crawler.fetcher序号类说明1FetchDNS获取DNS数据,如IP2FetchFTP获取FTP数据3FetchHTTP获取HTTP数据4HeritrixHttpMethodRetryHandlerHTTP重试处理器,重新去连接HTTP

2012-11-14 15:33:08 472

转载 Heritrix源码分析(四) 各个类说明(一)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/630347    本博客已迁移到本人独立博客: http://www.yun5u.com/    欢迎加入Heritrix群(QQ):109148319,10447185  , Lucene/Solr群(QQ) :  118972724

2012-11-14 15:27:05 475

转载 Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/629891      本博客已迁移到本人独立博客: http://www.yun5u.com/      Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix

2012-11-14 15:23:08 373

转载 Heritrix源码分析(二) 配置文件order.xml介绍

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412     本博客已迁移到本人独立博客: http://www.yun5u.com/      order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知

2012-11-14 15:07:45 624

转载 Heritrix源码分析(一) 包介绍

本博客属原创文章,欢迎转载!但转载请务必注明出处:http://guoyunsky.iteye.com/blog/613249 本博客已迁移到本人独立博客: http://www.yun5u.com/     之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。 想了很久,还是先从H

2012-11-14 15:00:01 477

转载 nutch1.4 URLFilter详解

org.apache.nutch.net.URLFilter接口有如下实现类:  Java代码  1、//匹配suffix, domain, host    org.apache.nutch.urlfilter.domain.DomainURLFilter    2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。

2012-11-02 18:04:54 461

转载 nutch1.4插件开发

参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。 nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。 一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。

2012-11-02 17:33:09 695 1

翻译 Nutch readseg命令详解

Readseg is an alias for org.apache.nutch.segment.SegmentReaderReadseg 命令对应的类是 org.apache.nutch.segment.SegmentReaderThis class is similar to readdb in that it dumps the contents of a segment. Th

2012-10-26 20:05:26 450

翻译 Understanding the columns/fields in Nutch 2.0 Webpage

Understanding the columns/fields in Nutch 2.0 WebpageOne of the great things about Nutch 2.0 and the move to GORA is that the datastore is much more easily accessible than it was under Nutch

2012-10-24 14:30:27 198

原创 Nutch配置文件(ConfigurationFiles的优先级、覆盖问题)

Configuration has two levels, default and final. It is supplied by the org.apache.hadoop.conf.Configuration class and extended in Nutch by the org.apache.nutch.util.NutchConfiguration class.Although

2012-10-24 10:06:21 430

转载 Developing Nutch: Gotchas

The following acts as a comprehensive list of Nutch "Gotchas" which should act as a suitable prerequisite source of implicit information currently existing in the Nutch Codebase and in its general u

2012-10-24 09:58:04 356

转载 Java中static、final用法小结

一、final1.final变量:      当你在类中定义变量时,在其前面加上final关键字,那便是说,这个变量一旦被初始化便不可改变,这里不可改变的意思对基本类型来说是其值不可变,而对于对象变量来说其引用不可再变。其初始化可以在两个地方,一是其定义处,也就是说在final变量定义时直接给其赋值,二是在构造函数中。这两个地方只能选其一,要么在定义时给值,要么在构造函数中给值,不

2012-10-23 17:16:18 269

转载 ubuntu安装 oracle java

1. 从http://java.sun.com/下载jdk的bin文件,将下载的jdk1.6.0_16.bin文件放到/usr/lib/jvm/java中    然后在终端执行代码:    sudo chmod u+x /usr/lib/jvm/java/jdk1.6.0_16.bin (修改文件权限使bin可执行)    接着在终端执行代码:    sudo /usr/lib/j

2012-10-20 11:44:23 251

转载 Putty连接虚拟机

Putty连接虚拟机          工作中常使用putty连接到实验室单板上进行操作,为更快的熟练掌握linux下的vi操作及常用的linux命令,决定在自己笔记本上弄个环境。自己动手弄了一下,还是花了不少时间的。 实验环境:操作系统:win7 ultimate虚拟机:vmvare8.0虚拟机镜像:ubuntu 11.10连接工具

2012-10-19 19:45:33 326

转载 回收站的路径 (CentOS6、Fedora10)

刚开始装Linux系统的时候在root用户下向其他用户拷贝过一些文件,后面就删除了。但在普通用户下,没有删除的权限,想修改权限后删除又找不到回收站的路径(刚开始还不知道搜索回收站的路径)。在root用户下,看不到普通用户回收站的图标(我用的是界面形式)。看到下面的文章:试试看http://hi.baidu.com/q3acn/blog/item/96d598efdafed7e7

2012-10-17 15:27:55 2088

转载 linux下查看磁盘空间

如果要查看磁盘还剩多少空间,当然是用df的命令了。[root@localhost ~]# df -h 文件系统              容量 已用 可用 已用% 挂载点 /dev/sda2              14G   11G 2.6G 82% / /dev/sda1              99M   14M   81M 14% /boot t

2012-10-16 21:36:43 270

原创 Hadoop org.apache.hadoop.util.DiskChecker$DiskErrorException 异常处理

最近Hadoop集群在执行作业的时候经常发生tasktracker错误,节点宕掉。查看了tasktracker的日志,报错如下:2012-07-14 10:43:41,492 WARN org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext: org.apache.hadoop.util.DiskChecker$DiskErrorE

2012-10-16 21:35:48 1273

转载 Linux 下运行tomcat的 “BASEDIR” 错误

昨天需要将公司的Hudson从Windows2008服务器移植到一台新的Ubuntu服务器上,在完成了所需的maven库、hudson工作区的复制后,我直接把部署了Hudson的tomcat的目录整个也搬到了新服务器的 /root里。 拷贝完成,立即进入 tomcat-xx.xx.x/bin/, 运行 startup.sh,报错,说找不到 catalina.sh。放屁,ls 一下,不好端端

2012-10-16 20:18:24 1036

转载 64位ubuntu、CentOS运行32位程序

今日把一32位程序放到Ubuntu Server 10.04 x64上面运行。以前试过这个程序可以在64位的Redhat AS 5、OpenSUSE 11.2上面跑的。但是今日出现了很奇怪的问题ll test-rwxr-xr-x 1 djc djc 5131109 Jul 26 19:06 test*./test-bash: ./test: No such file o

2012-10-16 14:19:45 3172

转载 vnc 调整分辨率

原文出处: http://space.itpub.net/519536/viewspace-668621感谢网友贡献。【VNC】修改VNC分辨率大小上一篇 / 下一篇  2010-07-20 22:08:24 / 个人分类:UNIX及其他查看( 918 ) / 评论( 2 ) / 评分( 0 / 0 )VNC的分辨率过小有可能导致图形化界面操作过程中遇到

2012-10-16 14:17:38 611

原创 centOS 安装vnc 5 详细过程

服务器重装了64位centos 6,正愁不知道怎么装VNC,找到这个东西,挺好用,我用的是VNC 5.04,同样适用 哈哈__________________________________________________________________________全新以最小化包安装了64位的CentOS6.3系统,作为本地的Web服务器使用,现记录全过程第四步,安装vnc5.0远

2012-10-16 14:04:37 621

转载 JAVA 正则表达式 (超详细)

在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包。  可粗略估计一下,除了偶尔用Linux的外,其他Linu x用户都会遇到正则表达式。正则表达式是个极端强大工具,而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里,正则表达式几乎没有什么限制,可肯定的是,它应用非常之广泛。

2012-10-14 14:35:15 2322

转载 java中使用队列:java.util.Queue

在java5中新增加了java.util.Queue接口,用以支持队列的常见操作。该接口扩展了java.util.Collection接口。Queue使用时要尽量避免Collection的add()和remove()方法,而是要使用offer()来加入元素,使用poll()来获取并移出元素。它们的优点是通过返回值可以判断成功与否,add()和remove()方法在失败的时候会抛出异常。 如

2012-10-05 15:06:16 326

转载 nutch特定域(field)的搜索

1. WEB-INF/classes/custom-fields.xml里添加: title yes yes no 1.0 false content yes yes no 1.0 false 2. plugin/query-custom/plugin.xml里修改: name="Nutch Custom Field Query Filt

2012-10-02 16:38:12 323

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除