ATCO[这里,只是顺手插曲]

KEEP住个势,努力!

Java中的类和方法的修饰符

java中的类和方法的修饰符Java程序在定义类时,除了使用class关键字标识之外,还可以在class之前增加若干类的修饰符来修饰限定所定义的类的特性。类的修饰符分为访问控制符和非访问控制符两大类。修饰符之间的先后排列次序对类的性质没有任何影响。   一,非访问修饰符。   ...

2013-06-23 11:11:19

阅读数 606

评论数 0

在mapreduce任务中使用distributedCache

背景:在使用mapreduce时,各个map之间需要共享一些信息。如果信息不大,可以保存在conf中。但是需求是在各个map之间共享文件或者tar包 使用distributedCache可以满足这个需求: distributedCache可以把HDFS上的文件(数据文件、压...

2013-06-19 18:26:04

阅读数 1038

评论数 0

使用java api操作Hadoop文件

. 概述  hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。 hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。...

2013-06-17 11:23:25

阅读数 627

评论数 0

CountDownLatch--线程同步辅助类

Java的concurrent包里面的CountDownLatch其实可以把它看作一个计数器,只不过这个计数器的操作是原子操作,同时只能有一个线程去操作这个计数器,也就是同时只能有一个线程去减这个计数器里面的值。       你可以向CountDownLatch对象设置一个初始的数字作为计数...

2013-06-17 09:45:05

阅读数 486

评论数 0

提高nutch爬取效率

Here are the things that could potentially slow down fetching  下面这些是潜在的影响爬取效率的内容:   1) DNS setup  2) The number of crawlers you have, too man...

2013-06-13 14:32:46

阅读数 2062

评论数 0

NUTCH主要源代码分析心得

主要类分析: 一、 org.apache.nutch.crawl.Injector:      1,注入url.txt     2,url标准化     3,拦截url,进行正则校验(regex-urlfilter.txt)     4,对符URL标准的url进行map对构造,在构造过程...

2013-06-09 09:20:32

阅读数 791

评论数 0

绕过ROBOTS规则,转向页面抓取配置,内容大小限制

1. 如何绕过目标站点的robots.txt限制  多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。  nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。  相关代码位于(nutch版本1.5.1,其他版...

2013-06-08 15:55:43

阅读数 2626

评论数 0

百度搜索的一些高级语法

1.title语法  就是在title中按照关键字搜索,例如:title:科帕奇。同类的语法还有intitle,个人感觉效果是一样的。  2. filetype语法  很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。例如:fi...

2013-06-05 11:29:25

阅读数 1690

评论数 0

Nutch源代码研究 网页抓取 数据结构

今天我们看看Nutch网页抓取,所用的几种数据结构:  主要涉及到了这几个类:FetchListEntry,Page,  首先我们看看FetchListEntry类:  public final class FetchListEntry implements Writable, Clonea...

2013-06-05 11:25:19

阅读数 950

评论数 0

Nutch源代码研究 网页抓取 下载插件

今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpRespo...

2013-06-05 11:20:52

阅读数 922

评论数 0

Nutch源代码研究 网页抓取 fetch

搜索引擎Nutch源代码研究之一 网页抓取:  Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-file  Protocol-ftp protocol-http protocol-httpclient以及相应的Pars...

2013-06-05 11:10:16

阅读数 2851

评论数 0

Nutch源代码研究 Parse网页

今天来看看Nutch如何Parse网页的:  Nutch使用了两种Html parser工具(NekoHTML和TagSoup)来实现html的提取,这两种工具是可通过配置来选择的。  当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Eve...

2013-06-05 10:59:36

阅读数 989

评论数 0

Linux系统 给用户发送消息 设置登陆提示信息

设置用户登录提示: 1、/etc/motd文件的用途          /etc/motd即message of today(布告栏信息),每次用户登录时,/etc/motd文件的内容会显示在用户的终端。        系统管理员可以在文件中编辑系统活动消息,例如:管理员通知用户系统何时进行软...

2013-06-04 11:44:50

阅读数 2051

评论数 0

关于字符编码(挺有用)

编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚。但是编码又是那么重要,特别在网页这一块。如果你打出来的不是乱码,而网页中出现了乱码,绝大部分原因就出在了编码上了。此外除了乱码之外,还会出现一些其他问...

2013-06-04 09:25:39

阅读数 486

评论数 0

提示
确定要删除当前文章?
取消 删除