- 博客(14)
- 资源 (1)
- 收藏
- 关注
转载 Java中的类和方法的修饰符
java中的类和方法的修饰符Java程序在定义类时,除了使用class关键字标识之外,还可以在class之前增加若干类的修饰符来修饰限定所定义的类的特性。类的修饰符分为访问控制符和非访问控制符两大类。修饰符之间的先后排列次序对类的性质没有任何影响。 一,非访问修饰符。 1,抽象类: 凡是用abstract修饰符修饰的类被称为抽象类。抽象类就是没有具体对象的
2013-06-23 11:11:19 798
转载 在mapreduce任务中使用distributedCache
背景:在使用mapreduce时,各个map之间需要共享一些信息。如果信息不大,可以保存在conf中。但是需求是在各个map之间共享文件或者tar包使用distributedCache可以满足这个需求:distributedCache可以把HDFS上的文件(数据文件、压缩文件等等)分发到各个执行task的节点。执行map或者reduce task的节点就可以在本地,直接
2013-06-19 18:26:04 1263
转载 使用java api操作Hadoop文件
. 概述 hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Conf
2013-06-17 11:23:25 782
转载 CountDownLatch--线程同步辅助类
Java的concurrent包里面的CountDownLatch其实可以把它看作一个计数器,只不过这个计数器的操作是原子操作,同时只能有一个线程去操作这个计数器,也就是同时只能有一个线程去减这个计数器里面的值。 你可以向CountDownLatch对象设置一个初始的数字作为计数值,任何调用这个对象上的await()方法都会阻塞,直到这个计数器的计数值被其他的线程减为0为止。
2013-06-17 09:45:05 594
转载 提高nutch爬取效率
Here are the things that could potentially slow down fetching 下面这些是潜在的影响爬取效率的内容: 1) DNS setup 2) The number of crawlers you have, too many, too few. 3) Bandwidth limitations 4) Number
2013-06-13 14:32:46 2199
转载 NUTCH主要源代码分析心得
主要类分析:一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级! 5
2013-06-09 09:20:32 884
转载 绕过ROBOTS规则,转向页面抓取配置,内容大小限制
1. 如何绕过目标站点的robots.txt限制 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。 nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。 相关代码位于(nutch版本1.5.1,其他版本未测试): org.apache.nutch.fetcher.Fetcher的run方法.
2013-06-08 15:55:43 4384
转载 百度搜索的一些高级语法
1.title语法 就是在title中按照关键字搜索,例如:title:科帕奇。同类的语法还有intitle,个人感觉效果是一样的。 2. filetype语法 很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。例如:filetype:ppt php。目前百度支持的文档类型为doc,pdf,xls,ppt,wps,rtf,
2013-06-05 11:29:25 2105
转载 Nutch源代码研究 网页抓取 数据结构
今天我们看看Nutch网页抓取,所用的几种数据结构: 主要涉及到了这几个类:FetchListEntry,Page, 首先我们看看FetchListEntry类: public final class FetchListEntry implements Writable, Cloneable 实现了Writable, Cloneable接口,Nutch许多类实现了Writable,
2013-06-05 11:25:19 1063
转载 Nutch源代码研究 网页抓取 下载插件
今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpResponse的一个Facade,设置配置信息,然后创建HttpRespose。用户似乎只需要和Http类打交
2013-06-05 11:20:52 1030
转载 Nutch源代码研究 网页抓取 fetch
搜索引擎Nutch源代码研究之一 网页抓取: Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-file Protocol-ftp protocol-http protocol-httpclient以及相应的Parser插件中: 下面我们先从org.apache.nutch.fetcher开始: 最主要的类是
2013-06-05 11:10:16 3082
转载 Nutch源代码研究 Parse网页
今天来看看Nutch如何Parse网页的: Nutch使用了两种Html parser工具(NekoHTML和TagSoup)来实现html的提取,这两种工具是可通过配置来选择的。 当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Event driver的接口]来 提取网页。如果你用惯了XML一套处理方法,使用NekoHTML和Ta
2013-06-05 10:59:36 1098
转载 Linux系统 给用户发送消息 设置登陆提示信息
设置用户登录提示:1、/etc/motd文件的用途 /etc/motd即message of today(布告栏信息),每次用户登录时,/etc/motd文件的内容会显示在用户的终端。 系统管理员可以在文件中编辑系统活动消息,例如:管理员通知用户系统何时进行软件或硬件的升级、何时进行系统维护等。如果shell支持中文,还可以使用中文,这样看起来更易于了解。
2013-06-04 11:44:50 2779
转载 关于字符编码(挺有用)
编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚。但是编码又是那么重要,特别在网页这一块。如果你打出来的不是乱码,而网页中出现了乱码,绝大部分原因就出在了编码上了。此外除了乱码之外,还会出现一些其他问题(例如:IE6 的 CSS 加载问题)等等。潜行者m 写出本文的目的,就是要彻底解释清楚这个编码问题
2013-06-04 09:25:39 575
net.sf.fjep.fatjar_0.0.31插件
2012-06-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人