自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ATCO[这里,只是顺手插曲]

KEEP住个势,努力!

  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

转载 Java中的类和方法的修饰符

java中的类和方法的修饰符Java程序在定义类时,除了使用class关键字标识之外,还可以在class之前增加若干类的修饰符来修饰限定所定义的类的特性。类的修饰符分为访问控制符和非访问控制符两大类。修饰符之间的先后排列次序对类的性质没有任何影响。  一,非访问修饰符。  1,抽象类:  凡是用abstract修饰符修饰的类被称为抽象类。抽象类就是没有具体对象的

2013-06-23 11:11:19 798

转载 在mapreduce任务中使用distributedCache

背景:在使用mapreduce时,各个map之间需要共享一些信息。如果信息不大,可以保存在conf中。但是需求是在各个map之间共享文件或者tar包使用distributedCache可以满足这个需求:distributedCache可以把HDFS上的文件(数据文件、压缩文件等等)分发到各个执行task的节点。执行map或者reduce task的节点就可以在本地,直接

2013-06-19 18:26:04 1263

转载 使用java api操作Hadoop文件

. 概述 hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Conf

2013-06-17 11:23:25 782

转载 CountDownLatch--线程同步辅助类

Java的concurrent包里面的CountDownLatch其实可以把它看作一个计数器,只不过这个计数器的操作是原子操作,同时只能有一个线程去操作这个计数器,也就是同时只能有一个线程去减这个计数器里面的值。      你可以向CountDownLatch对象设置一个初始的数字作为计数值,任何调用这个对象上的await()方法都会阻塞,直到这个计数器的计数值被其他的线程减为0为止。

2013-06-17 09:45:05 594

转载 提高nutch爬取效率

Here are the things that could potentially slow down fetching 下面这些是潜在的影响爬取效率的内容: 1) DNS setup 2) The number of crawlers you have, too many, too few. 3) Bandwidth limitations 4) Number

2013-06-13 14:32:46 2199

转载 NUTCH主要源代码分析心得

主要类分析:一、 org.apache.nutch.crawl.Injector:     1,注入url.txt    2,url标准化    3,拦截url,进行正则校验(regex-urlfilter.txt)    4,对符URL标准的url进行map对构造,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级!    5

2013-06-09 09:20:32 884

转载 绕过ROBOTS规则,转向页面抓取配置,内容大小限制

1. 如何绕过目标站点的robots.txt限制 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。 nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。 相关代码位于(nutch版本1.5.1,其他版本未测试): org.apache.nutch.fetcher.Fetcher的run方法.

2013-06-08 15:55:43 4384

转载 百度搜索的一些高级语法

1.title语法 就是在title中按照关键字搜索,例如:title:科帕奇。同类的语法还有intitle,个人感觉效果是一样的。 2. filetype语法 很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。例如:filetype:ppt php。目前百度支持的文档类型为doc,pdf,xls,ppt,wps,rtf,

2013-06-05 11:29:25 2105

转载 Nutch源代码研究 网页抓取 数据结构

今天我们看看Nutch网页抓取,所用的几种数据结构: 主要涉及到了这几个类:FetchListEntry,Page, 首先我们看看FetchListEntry类: public final class FetchListEntry implements Writable, Cloneable 实现了Writable, Cloneable接口,Nutch许多类实现了Writable,

2013-06-05 11:25:19 1063

转载 Nutch源代码研究 网页抓取 下载插件

今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpResponse的一个Facade,设置配置信息,然后创建HttpRespose。用户似乎只需要和Http类打交

2013-06-05 11:20:52 1030

转载 Nutch源代码研究 网页抓取 fetch

搜索引擎Nutch源代码研究之一 网页抓取: Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-file Protocol-ftp protocol-http protocol-httpclient以及相应的Parser插件中: 下面我们先从org.apache.nutch.fetcher开始: 最主要的类是

2013-06-05 11:10:16 3082

转载 Nutch源代码研究 Parse网页

今天来看看Nutch如何Parse网页的: Nutch使用了两种Html parser工具(NekoHTML和TagSoup)来实现html的提取,这两种工具是可通过配置来选择的。 当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Event driver的接口]来 提取网页。如果你用惯了XML一套处理方法,使用NekoHTML和Ta

2013-06-05 10:59:36 1098

转载 Linux系统 给用户发送消息 设置登陆提示信息

设置用户登录提示:1、/etc/motd文件的用途         /etc/motd即message of today(布告栏信息),每次用户登录时,/etc/motd文件的内容会显示在用户的终端。        系统管理员可以在文件中编辑系统活动消息,例如:管理员通知用户系统何时进行软件或硬件的升级、何时进行系统维护等。如果shell支持中文,还可以使用中文,这样看起来更易于了解。

2013-06-04 11:44:50 2779

转载 关于字符编码(挺有用)

编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚。但是编码又是那么重要,特别在网页这一块。如果你打出来的不是乱码,而网页中出现了乱码,绝大部分原因就出在了编码上了。此外除了乱码之外,还会出现一些其他问题(例如:IE6 的 CSS 加载问题)等等。潜行者m 写出本文的目的,就是要彻底解释清楚这个编码问题

2013-06-04 09:25:39 575

net.sf.fjep.fatjar_0.0.31插件

使用net.sf.fjep.fatjar_0.0.31可以在ECLIPSE中很方便的将第三方JAR包打进自已的JAR包中,以免总是找不到相关的类或需要设置大量环境变量,具体请查看博文:http://blog.csdn.net/atco/article/details/7626131

2012-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除