自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

haoshen's blog

多多交流,共同提高

  • 博客(26)
  • 资源 (18)
  • 收藏
  • 关注

原创 Java网络爬虫crawler4j学习笔记<25> PageFetcher类

简介PageFetcher类主要是HTTPClient包的运用。需要了解其API代码package edu.uci.ics.crawler4j.fetcher;import java.io.IOException;import java.io.UnsupportedEncodingException;import java.security.cert.X509Certificate;impor

2016-11-10 22:13:14 2127

原创 Java网络爬虫crawler4j学习笔记<24> PageFetchResult类

源代码package edu.uci.ics.crawler4j.fetcher;import java.io.EOFException;import java.io.IOException;import org.apache.http.Header;import org.apache.http.HttpEntity;import org.apache.http.util.EntityUtil

2016-11-10 21:41:15 1217

原创 Java网络爬虫crawler4j学习笔记<23> IdleConnectionMonitorThread类

简介IdleConnectionMonitorThread类负责监控httpclient中的连接,进行清理操作。同时提供终止爬虫的功能。源代码package edu.uci.ics.crawler4j.fetcher;import java.util.concurrent.TimeUnit;import org.apache.http.impl.conn.PoolingHttpClientConne

2016-11-10 21:17:52 5420

原创 Java网络爬虫crawler4j学习笔记<22> Parser 类

简介Parser类负责将从服务器得到的byte[]数据(存储在Page对象里)进行解析,按照binary,text,html的类型,分别调用相应的parseData类>。这里有个容易混淆的点:类BinaryParseData,TextParseData,HtmlParseDat命名有点不好,它们表示的意思是pase之后得到的关于网页的规范化的Data,而不是动名词结构(parse data)。源代码

2016-11-10 20:28:51 6108

原创 SAX解析示例

简介关于Html DOM中的Node对象的namespace,localname等属性的详细解释,参见(W3C)。Book.xml<!-- <?xml version="1.0" encoding="UTF-8"?> <书架> <书> <书名 name="hello" value="world">海的女儿</书名> <作者>安徒生</作者>

2016-11-10 17:18:18 939

原创 Java网络爬虫crawler4j学习笔记<19> SAX解析工具类

ExtractedUrlAnchorPair 类package edu.uci.ics.crawler4j.parser;// 将html文本中的超链接标签,拆分为href(超链接),anchor(锚文本),tag(HTML标签)各部分public class ExtractedUrlAnchorPair { private String href; private String ancho

2016-11-10 15:42:50 903

原创 Java网络爬虫crawler4j学习笔记<21> Page 类

简介Page 类解析httpClient包中的Entity对象,获取当前页面的信息,包括url(转换为WebURl),response的信息(status code, response header等),解析后的内容信息等等。源代码package edu.uci.ics.crawler4j.crawler;import java.nio.charset.Charset;import org.apac

2016-11-10 14:32:30 1186

原创 Java网络爬虫crawler4j学习笔记<20> 网页内容转码解析

简介网页内容解析相关的类和接口位于包edu.uci.ics.crawler4j.parser中,用于拆分解析html网页的各部分内容。源代码ParseData接口ParseData 接口包含getOutgoingUrls方法,用于获取当前页面的所有外链。package edu.uci.ics.crawler4j.parser;import edu.uci.ics.crawler4j.url.WebU

2016-11-10 14:20:00 2324 2

原创 Java网络爬虫crawler4j学习笔记<18> Configurable类

简介Configurable抽象类包含了一个爬虫配置信息对象config,爬虫其他的功能模块有可能需要用到这些配置信息。源代码package edu.uci.ics.crawler4j.crawler;/** * Several core components of crawler4j extend this class * to make them configurable. * * @a

2016-11-10 12:28:24 759

原创 Java网络爬虫crawler4j学习笔记<17> CrawlConfig类

简介CrawlConfig类存放着爬虫的基本配置,可供用户在初始化爬虫时进行配置。CrawlConfig类也向其他的功能模块提供它们需要的爬虫配置信息。源代码/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTI

2016-11-10 12:13:51 3252

原创 Java网络爬虫crawler4j学习笔记<16> exceptions

简介edu.uci.ics.crawler4j.crawler.exceptions包比较简单,里面都是一些自定义的异常类。源代码ContentFetchExceptionpackage edu.uci.ics.crawler4j.crawler.exceptions;/** * Created by Avi Hayun on 12/8/2014. * * Thrown when there

2016-11-10 11:16:13 1015

原创 Java网络爬虫crawler4j学习笔记<15> FormAuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType;import java.net.MalformedURLException;/** * Created by Avi Hayun on 11/25/2014. * * F

2016-11-10 10:57:45 1191

原创 Java网络爬虫crawler4j学习笔记<14> BasicAuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType;import java.net.MalformedURLException;/** * Created by Avi Hayun on 11/25/2014. * * B

2016-11-10 10:55:30 1080

原创 Java网络爬虫crawler4j学习笔记<13> AuthInfo类

源代码package edu.uci.ics.crawler4j.crawler.authentication;import javax.swing.text.html.FormSubmitEvent.MethodType;import java.net.MalformedURLException;import java.net.URL;/** * Created by Avi Hayun o

2016-11-10 10:51:10 1803

原创 Java网络爬虫crawler4j学习笔记<12> RobotstxtParser类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.StringTokenizer;// 根据网站的robot.txt文本,构建allows和disallow集合public class RobotstxtParser { // 当使用String.matches方法调用时,"?i"表示忽略大小写 private stat

2016-11-10 10:18:39 1436

原创 Java网络爬虫crawler4j学习笔记<11> RobotstxtConfig类

源代码package edu.uci.ics.crawler4j.robotstxt;// robot.txt的配置类public class RobotstxtConfig { /** * Should the crawler obey Robots.txt protocol? More info on Robots.txt is * available at http://www

2016-11-10 09:48:46 1160

原创 Java网络爬虫crawler4j学习笔记<10> HostDirectives类

源代码package edu.uci.ics.crawler4j.robotstxt;// 存放当前Host的robot.txt指令public class HostDirectives { // If we fetched the directives for this host more than // 24 hours, we have to re-fetch it. privat

2016-11-10 09:44:07 786

原创 Java网络爬虫crawler4j学习笔记<9> RuleSet类

源代码package edu.uci.ics.crawler4j.robotstxt;import java.util.SortedSet;import java.util.TreeSet;// RuleSet类根据robot.txt来定义爬虫爬取url时的rulepublic class RuleSet extends TreeSet<String> { private static fin

2016-11-10 09:32:34 1058

原创 Java网络爬虫crawler4j学习笔记<8> URLCanonicalizer类

源代码package edu.uci.ics.crawler4j.url;import java.net.MalformedURLException;import java.net.URI;import java.net.URISyntaxException;import java.net.URL;import java.net.URLDecoder;import java.net.URL

2016-11-08 22:26:33 1896

原创 Java网络爬虫crawler4j学习笔记<7> UrlResolver类

源代码package edu.uci.ics.crawler4j.url;// 将相对地址转化为绝对地址(具体内容参考文档http://www.faqs.org/rfcs/rfc1808.html)public final class UrlResolver { /** * Class <tt>Url</tt> represents a Uniform Resource Loc

2016-11-08 21:44:25 1856 1

原创 Java网络爬虫crawler4j学习笔记<6> WebURL类

源代码分析package edu.uci.ics.crawler4j.url;import java.io.Serializable;import com.sleepycat.persist.model.Entity;import com.sleepycat.persist.model.PrimaryKey;@Entity // Berkley DB Annotationpublic class

2016-11-08 20:39:27 1978 2

原创 Java网络爬虫crawler4j学习笔记<5> TLDList类

源代码package edu.uci.ics.crawler4j.url;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net

2016-11-08 19:57:53 1901

原创 Java网络爬虫crawler4j学习笔记<4> Net类

源代码package edu.uci.ics.crawler4j.util;import edu.uci.ics.crawler4j.url.WebURL;import java.util.HashSet;import java.util.Set;import java.util.regex.Matcher;import java.util.regex.Pattern;public class

2016-11-08 10:25:54 1335

原创 Java网络爬虫crawler4j学习笔记<3> IO类

源代码package edu.uci.ics.crawler4j.util;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import java.io.File;public class IO { //日志记录对象 private static Logger logger = LoggerFactory.getLogge

2016-11-08 09:55:09 1354

原创 Java网络爬虫crawler4j学习笔记<2> Util类

源代码package edu.uci.ics.crawler4j.util;public class Util { // 将long类型(8字节64位)变量,转化为长度为8的byte数组。变量的高位位于byte数组的前面 public static byte[] long2ByteArray(long l) { byte[] array = new byte[8];

2016-11-08 00:15:38 1992

原创 Java网络爬虫crawler4j学习笔记<1>入门

简介环境搭建爬虫开发环境代码研究环境crawler4j架构代码阅读与分析简介crawler4j是一个开源的网络爬虫框架(github地址),可以帮助我们很快地实现一个最基本的网络爬虫。同时由于它的架构比较简单,整个项目只有几十个代码文件,并且完全实现了一个爬虫应该具有的所有基本单元。麻雀虽小,肝胆俱全。非常适合爬虫菜鸟来进行深入的学习。环境搭建爬虫开发环境如果你只是想在你的爬虫项目中使用c

2016-11-07 21:16:14 5939 2

编译后的hadoop-2.7.3-src.tar.gz

在centos7下,使用mvn,jdk 1.8.0_65,protoc 2.5.0,执行mvn install,以及mvn eclipse:eclipse -DskipTests之后的压缩文件。 可以导入到eclipse项目中,有可能报错

2016-11-28

Java 俄罗斯方块

参照网上小翼的教程做的。由于ps能力不足,所以没有实现换皮肤的功能,其他功能都实现了

2015-03-28

机器学习实战源代码

Peter Harrington的机器学习实战《Machine Learning in Aciton》源代码

2014-05-17

呕心沥血的java复杂聊天室(包括自定义应用层协议、CS多线程、多客户端登录、上下线提醒等等)

呕心沥血的java复杂聊天室(包括自定义应用层协议、CS多线程、多客户端登录、上下线提醒等等)。

2014-05-09

基于情感字典的文本分析系统

基于情感字典的文本分析系统。使用插件ICTCLAS,TinyXML等

2013-11-21

数据结构C语言

[数据结构(C语言版)].严蔚敏_吴伟民.扫描版,程序员必备

2012-11-17

java的API,1.6

java API for JDk 1.6 and up

2011-11-19

如何在eclipse中添加相关文件

eclipse中添加.class文件以及相关文件的导入。新手必备

2011-11-19

指针于函数的调用以及直撞地

指针于函数的调用以及直撞地指针于函数的调用以及直撞地指针于函数的调用以及直撞地

2011-05-20

编程中的内存划分及管理使用

编程中的内存划分及管理使用,了解编程的实质运行情况

2011-05-20

华为的编程规范()助于将来工作上的需要)

华为的编程规范()助于将来工作上的需要,商业上的规范,从小养成编程好习惯

2011-05-20

程序设计基础教程PPT全集

程序设计基础教程PPT全集,好的没话说,C中的重要部分基本上都讲了

2011-05-20

windows平台下的链表管理程序

windows平台下的链表管理程序,简述链表的基本操作及详细介绍,利于理解

2011-05-19

基于VC平台下的电话簿管理程序

基于windows平台下的电话簿管理系统,可增加,查询,删除,显示,打电话等功能

2011-05-19

小精灵游戏程序(VC条件下C语言编写)

C语言写的小精灵程序(附详解),小精灵可以吃豆子,类似的可以编出贪吃蛇及俄罗斯方块等小程序

2011-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除