haoshen's blog

多多交流,共同提高

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Java网络爬虫crawler4j学习笔记<25> PageFetcher类

简介PageFetcher类主要是HTTPClient包的运用。需要了解其API代码package edu.uci.ics.crawler4j.fetcher;import java.io.IOException; import java.io.UnsupportedEncodingExcepti...

2016-11-10 22:13:14

阅读数 1536

评论数 0

Java网络爬虫crawler4j学习笔记<24> PageFetchResult类

源代码package edu.uci.ics.crawler4j.fetcher;import java.io.EOFException; import java.io.IOException;import org.apache.http.Header; import org.apache.htt...

2016-11-10 21:41:15

阅读数 771

评论数 0

Java网络爬虫crawler4j学习笔记<23> IdleConnectionMonitorThread类

简介IdleConnectionMonitorThread类负责监控httpclient中的连接,进行清理操作。同时提供终止爬虫的功能。源代码package edu.uci.ics.crawler4j.fetcher;import java.util.concurrent.TimeUnit;imp...

2016-11-10 21:17:52

阅读数 2684

评论数 0

Java网络爬虫crawler4j学习笔记<22> Parser 类

简介Parser类负责将从服务器得到的byte[]数据(存储在Page对象里)进行解析,按照binary,text,html的类型,分别调用相应的parseData类>。这里有个容易混淆的点:类BinaryParseData,TextParseData,HtmlParseDat命名有点不好,...

2016-11-10 20:28:51

阅读数 918

评论数 0

SAX解析示例

简介关于Html DOM中的Node对象的namespace,localname等属性的详细解释,参见(W3C)。Book.xml<!-- <?xml version="1.0" encoding="UTF-8"?> <书架&g...

2016-11-10 17:18:18

阅读数 547

评论数 0

Java网络爬虫crawler4j学习笔记<19> SAX解析工具类

ExtractedUrlAnchorPair 类package edu.uci.ics.crawler4j.parser;// 将html文本中的超链接标签,拆分为href(超链接),anchor(锚文本),tag(HTML标签)各部分 public class ExtractedUrlAncho...

2016-11-10 15:42:50

阅读数 700

评论数 0

Java网络爬虫crawler4j学习笔记<21> Page 类

简介Page 类解析httpClient包中的Entity对象,获取当前页面的信息,包括url(转换为WebURl),response的信息(status code, response header等),解析后的内容信息等等。源代码package edu.uci.ics.crawler4j.cra...

2016-11-10 14:32:30

阅读数 731

评论数 0

Java网络爬虫crawler4j学习笔记<20> 网页内容转码解析

简介网页内容解析相关的类和接口位于包edu.uci.ics.crawler4j.parser中,用于拆分解析html网页的各部分内容。源代码ParseData接口ParseData 接口包含getOutgoingUrls方法,用于获取当前页面的所有外链。package edu.uci.ics.cr...

2016-11-10 14:20:00

阅读数 1686

评论数 2

Java网络爬虫crawler4j学习笔记<18> Configurable类

简介Configurable抽象类包含了一个爬虫配置信息对象config,爬虫其他的功能模块有可能需要用到这些配置信息。源代码package edu.uci.ics.crawler4j.crawler;/** * Several core components of crawler4j exte...

2016-11-10 12:28:24

阅读数 510

评论数 0

Java网络爬虫crawler4j学习笔记<17> CrawlConfig类

简介CrawlConfig类存放着爬虫的基本配置,可供用户在初始化爬虫时进行配置。CrawlConfig类也向其他的功能模块提供它们需要的爬虫配置信息。源代码/** * Licensed to the Apache Software Foundation (ASF) under one or m...

2016-11-10 12:13:51

阅读数 2392

评论数 0

Java网络爬虫crawler4j学习笔记<16> exceptions

简介edu.uci.ics.crawler4j.crawler.exceptions包比较简单,里面都是一些自定义的异常类。源代码ContentFetchExceptionpackage edu.uci.ics.crawler4j.crawler.exceptions;/** * Created...

2016-11-10 11:16:13

阅读数 766

评论数 0

Java网络爬虫crawler4j学习笔记<15> FormAuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType; import java.net.MalformedURLExceptio...

2016-11-10 10:57:45

阅读数 903

评论数 0

Java网络爬虫crawler4j学习笔记<14> BasicAuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType; import java.net.MalformedURLExceptio...

2016-11-10 10:55:30

阅读数 746

评论数 0

Java网络爬虫crawler4j学习笔记<13> AuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType; import java.net.MalformedURLExceptio...

2016-11-10 10:51:10

阅读数 1195

评论数 0

Java网络爬虫crawler4j学习笔记<12> RobotstxtParser类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.StringTokenizer;// 根据网站的robot.txt文本,构建allows和disallow集合 public class RobotstxtParser { /...

2016-11-10 10:18:39

阅读数 1078

评论数 0

Java网络爬虫crawler4j学习笔记<11> RobotstxtConfig类

源代码package edu.uci.ics.crawler4j.robotstxt;// robot.txt的配置类 public class RobotstxtConfig { /** * Should the crawler obey Robots.txt protocol? Mor...

2016-11-10 09:48:46

阅读数 864

评论数 0

Java网络爬虫crawler4j学习笔记<10> HostDirectives类

源代码package edu.uci.ics.crawler4j.robotstxt;// 存放当前Host的robot.txt指令 public class HostDirectives { // If we fetched the directives for this host more ...

2016-11-10 09:44:07

阅读数 576

评论数 0

Java网络爬虫crawler4j学习笔记<9> RuleSet类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.SortedSet; import java.util.TreeSet;// RuleSet类根据robot.txt来定义爬虫爬取url时的rule public class R...

2016-11-10 09:32:34

阅读数 823

评论数 0

Java网络爬虫crawler4j学习笔记<8> URLCanonicalizer类

源代码package edu.uci.ics.crawler4j.url;import java.net.MalformedURLException; import java.net.URI; import java.net.URISyntaxException; import java.net....

2016-11-08 22:26:33

阅读数 1483

评论数 0

Java网络爬虫crawler4j学习笔记<7> UrlResolver类

源代码package edu.uci.ics.crawler4j.url;// 将相对地址转化为绝对地址(具体内容参考文档http://www.faqs.org/rfcs/rfc1808.html) public final class UrlResolver { /** * ...

2016-11-08 21:44:25

阅读数 1486

评论数 1

提示
确定要删除当前文章?
取消 删除