haoshen's blog

多多交流,共同提高

IDEA常用快捷键

IDEA 常用快捷键 Run cmd + 4 Debug cmd + 5 Terminal option + F12 Distraction Free Mode cmd + shift + F12 ...

2018-06-26 19:34:04

阅读数 120

评论数 0

Java网络爬虫crawler4j学习笔记<25> PageFetcher类

简介PageFetcher类主要是HTTPClient包的运用。需要了解其API代码package edu.uci.ics.crawler4j.fetcher;import java.io.IOException; import java.io.UnsupportedEncodingExcepti...

2016-11-10 22:13:14

阅读数 1508

评论数 0

Java网络爬虫crawler4j学习笔记<24> PageFetchResult类

源代码package edu.uci.ics.crawler4j.fetcher;import java.io.EOFException; import java.io.IOException;import org.apache.http.Header; import org.apache.htt...

2016-11-10 21:41:15

阅读数 746

评论数 0

Java网络爬虫crawler4j学习笔记<23> IdleConnectionMonitorThread类

简介IdleConnectionMonitorThread类负责监控httpclient中的连接,进行清理操作。同时提供终止爬虫的功能。源代码package edu.uci.ics.crawler4j.fetcher;import java.util.concurrent.TimeUnit;imp...

2016-11-10 21:17:52

阅读数 2476

评论数 0

Java网络爬虫crawler4j学习笔记<22> Parser 类

简介Parser类负责将从服务器得到的byte[]数据(存储在Page对象里)进行解析,按照binary,text,html的类型,分别调用相应的parseData类>。这里有个容易混淆的点:类BinaryParseData,TextParseData,HtmlParseDat命名有点不好,...

2016-11-10 20:28:51

阅读数 901

评论数 0

SAX解析示例

简介关于Html DOM中的Node对象的namespace,localname等属性的详细解释,参见(W3C)。Book.xml<!-- <?xml version="1.0" encoding="UTF-8"?> <书架&g...

2016-11-10 17:18:18

阅读数 535

评论数 0

Java网络爬虫crawler4j学习笔记<19> SAX解析工具类

ExtractedUrlAnchorPair 类package edu.uci.ics.crawler4j.parser;// 将html文本中的超链接标签,拆分为href(超链接),anchor(锚文本),tag(HTML标签)各部分 public class ExtractedUrlAncho...

2016-11-10 15:42:50

阅读数 686

评论数 0

Java网络爬虫crawler4j学习笔记<21> Page 类

简介Page 类解析httpClient包中的Entity对象,获取当前页面的信息,包括url(转换为WebURl),response的信息(status code, response header等),解析后的内容信息等等。源代码package edu.uci.ics.crawler4j.cra...

2016-11-10 14:32:30

阅读数 694

评论数 0

Java网络爬虫crawler4j学习笔记<20> 网页内容转码解析

简介网页内容解析相关的类和接口位于包edu.uci.ics.crawler4j.parser中,用于拆分解析html网页的各部分内容。源代码ParseData接口ParseData 接口包含getOutgoingUrls方法,用于获取当前页面的所有外链。package edu.uci.ics.cr...

2016-11-10 14:20:00

阅读数 1631

评论数 2

Java网络爬虫crawler4j学习笔记<18> Configurable类

简介Configurable抽象类包含了一个爬虫配置信息对象config,爬虫其他的功能模块有可能需要用到这些配置信息。源代码package edu.uci.ics.crawler4j.crawler;/** * Several core components of crawler4j exte...

2016-11-10 12:28:24

阅读数 495

评论数 0

Java网络爬虫crawler4j学习笔记<17> CrawlConfig类

简介CrawlConfig类存放着爬虫的基本配置,可供用户在初始化爬虫时进行配置。CrawlConfig类也向其他的功能模块提供它们需要的爬虫配置信息。源代码/** * Licensed to the Apache Software Foundation (ASF) under one or m...

2016-11-10 12:13:51

阅读数 2318

评论数 0

Java网络爬虫crawler4j学习笔记<16> exceptions

简介edu.uci.ics.crawler4j.crawler.exceptions包比较简单,里面都是一些自定义的异常类。源代码ContentFetchExceptionpackage edu.uci.ics.crawler4j.crawler.exceptions;/** * Created...

2016-11-10 11:16:13

阅读数 758

评论数 0

Java网络爬虫crawler4j学习笔记<15> FormAuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType; import java.net.MalformedURLExceptio...

2016-11-10 10:57:45

阅读数 895

评论数 0

Java网络爬虫crawler4j学习笔记<14> BasicAuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType; import java.net.MalformedURLExceptio...

2016-11-10 10:55:30

阅读数 733

评论数 0

Java网络爬虫crawler4j学习笔记<13> AuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType; import java.net.MalformedURLExceptio...

2016-11-10 10:51:10

阅读数 1161

评论数 0

Java网络爬虫crawler4j学习笔记<12> RobotstxtParser类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.StringTokenizer;// 根据网站的robot.txt文本,构建allows和disallow集合 public class RobotstxtParser { /...

2016-11-10 10:18:39

阅读数 1041

评论数 0

Java网络爬虫crawler4j学习笔记<11> RobotstxtConfig类

源代码package edu.uci.ics.crawler4j.robotstxt;// robot.txt的配置类 public class RobotstxtConfig { /** * Should the crawler obey Robots.txt protocol? Mor...

2016-11-10 09:48:46

阅读数 839

评论数 0

Java网络爬虫crawler4j学习笔记<10> HostDirectives类

源代码package edu.uci.ics.crawler4j.robotstxt;// 存放当前Host的robot.txt指令 public class HostDirectives { // If we fetched the directives for this host more ...

2016-11-10 09:44:07

阅读数 568

评论数 0

Java网络爬虫crawler4j学习笔记<9> RuleSet类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.SortedSet; import java.util.TreeSet;// RuleSet类根据robot.txt来定义爬虫爬取url时的rule public class R...

2016-11-10 09:32:34

阅读数 811

评论数 0

Java网络爬虫crawler4j学习笔记<8> URLCanonicalizer类

源代码package edu.uci.ics.crawler4j.url;import java.net.MalformedURLException; import java.net.URI; import java.net.URISyntaxException; import java.net....

2016-11-08 22:26:33

阅读数 1461

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭