2013年06月_ATCO

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Java中的类和方法的修饰符

java中的类和方法的修饰符Java程序在定义类时，除了使用class关键字标识之外，还可以在class之前增加若干类的修饰符来修饰限定所定义的类的特性。类的修饰符分为访问控制符和非访问控制符两大类。修饰符之间的先后排列次序对类的性质没有任何影响。　　一，非访问修饰符。　　1,抽象类：　　凡是用abstract修饰符修饰的类被称为抽象类。抽象类就是没有具体对象的

2013-06-23 11:11:19 798

转载在mapreduce任务中使用distributedCache

背景：在使用mapreduce时，各个map之间需要共享一些信息。如果信息不大，可以保存在conf中。但是需求是在各个map之间共享文件或者tar包使用distributedCache可以满足这个需求：distributedCache可以把HDFS上的文件（数据文件、压缩文件等等）分发到各个执行task的节点。执行map或者reduce task的节点就可以在本地，直接

2013-06-19 18:26:04 1263

转载使用java api操作Hadoop文件

. 概述 hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中，这些api能够支持的操作包含：打开文件，读写文件，删除文件等。hadoop类库中最终面向用户提供的接口类是FileSystem，该类是个抽象类，只能通过来类的get方法得到具体类。get方法存在几个重载版本，常用的是这个：static FileSystem get(Conf

2013-06-17 11:23:25 782

转载 CountDownLatch--线程同步辅助类

Java的concurrent包里面的CountDownLatch其实可以把它看作一个计数器，只不过这个计数器的操作是原子操作，同时只能有一个线程去操作这个计数器，也就是同时只能有一个线程去减这个计数器里面的值。你可以向CountDownLatch对象设置一个初始的数字作为计数值，任何调用这个对象上的await()方法都会阻塞，直到这个计数器的计数值被其他的线程减为0为止。

2013-06-17 09:45:05 594

转载提高nutch爬取效率

Here are the things that could potentially slow down fetching 下面这些是潜在的影响爬取效率的内容： 1) DNS setup 2) The number of crawlers you have, too many, too few. 3) Bandwidth limitations 4) Number

2013-06-13 14:32:46 2199

转载 NUTCH主要源代码分析心得

主要类分析：一、 org.apache.nutch.crawl.Injector: 1，注入url.txt 2，url标准化 3，拦截url，进行正则校验（regex-urlfilter.txt） 4，对符URL标准的url进行map对构造，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！ 5

2013-06-09 09:20:32 884

转载绕过ROBOTS规则，转向页面抓取配置，内容大小限制

1. 如何绕过目标站点的robots.txt限制多数站点都是只允许百度、google等搜索引擎抓取的，所以会在robots.txt里限制其他爬虫。 nutch自然是会遵循robots协议的，但是我们可以通过修改nutch源码来绕过限制。相关代码位于（nutch版本1.5.1，其他版本未测试）： org.apache.nutch.fetcher.Fetcher的run方法.

2013-06-08 15:55:43 4384

转载百度搜索的一些高级语法

1.title语法就是在title中按照关键字搜索，例如：title:科帕奇。同类的语法还有intitle，个人感觉效果是一样的。 2. filetype语法很多有价值的资料，在互联网上并非是普通的网页，而是以Word、PowerPoint、PDF等格式存在。例如：filetype:ppt php。目前百度支持的文档类型为doc,pdf,xls,ppt,wps,rtf,

2013-06-05 11:29:25 2105

转载 Nutch源代码研究网页抓取数据结构

今天我们看看Nutch网页抓取，所用的几种数据结构：主要涉及到了这几个类：FetchListEntry，Page，首先我们看看FetchListEntry类： public final class FetchListEntry implements Writable, Cloneable 实现了Writable, Cloneable接口，Nutch许多类实现了Writable,

2013-06-05 11:25:19 1063

今天我们来看看Nutch的源代码中的protocol-http插件，是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类，其中HttpRespose主要是向web服务器发请求来获取响应，从而下载页面。Http类则非常简单，其实可以说是HttpResponse的一个Facade,设置配置信息，然后创建HttpRespose。用户似乎只需要和Http类打交

2013-06-05 11:20:52 1030

转载 Nutch源代码研究网页抓取 fetch

搜索引擎Nutch源代码研究之一网页抓取： Nutch的爬虫代码部分主要集中在：package org.apache.nutch.fetcher和插件protocol-file Protocol-ftp protocol-http protocol-httpclient以及相应的Parser插件中：下面我们先从org.apache.nutch.fetcher开始：最主要的类是

2013-06-05 11:10:16 3082

转载 Nutch源代码研究 Parse网页

今天来看看Nutch如何Parse网页的： Nutch使用了两种Html parser工具（NekoHTML和TagSoup）来实现html的提取，这两种工具是可通过配置来选择的。当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Event driver的接口]来提取网页。如果你用惯了XML一套处理方法，使用NekoHTML和Ta

2013-06-05 10:59:36 1098

转载 Linux系统给用户发送消息设置登陆提示信息

设置用户登录提示:1、/etc/motd文件的用途 /etc/motd即message of today（布告栏信息），每次用户登录时，/etc/motd文件的内容会显示在用户的终端。系统管理员可以在文件中编辑系统活动消息，例如：管理员通知用户系统何时进行软件或硬件的升级、何时进行系统维护等。如果shell支持中文，还可以使用中文，这样看起来更易于了解。

2013-06-04 11:44:50 2779

转载关于字符编码（挺有用）

编码一直是让新手头疼的问题，特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别，更是让许多新手晕头转向，怎么解释也解释不清楚。但是编码又是那么重要，特别在网页这一块。如果你打出来的不是乱码，而网页中出现了乱码，绝大部分原因就出在了编码上了。此外除了乱码之外，还会出现一些其他问题（例如：IE6 的 CSS 加载问题）等等。潜行者m 写出本文的目的，就是要彻底解释清楚这个编码问题

2013-06-04 09:25:39 575

net.sf.fjep.fatjar_0.0.31插件

使用net.sf.fjep.fatjar_0.0.31可以在ECLIPSE中很方便的将第三方JAR包打进自已的JAR包中，以免总是找不到相关的类或需要设置大量环境变量，具体请查看博文：http://blog.csdn.net/atco/article/details/7626131

2012-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ATCO[这里，只是顺手插曲]