爬虫之路
爬虫之路Blog
HaiwiSong
一切只为让自己变得更优秀!
展开
-
HttpClient之简单爬取页面的实现
HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。 Commons-httpclient项目就是专门设计来简化HTTP客户端与服务器进行各种通讯编程。HttpClient是一个代码级的Http客户端工具,可以使用它模拟浏览器向Http服务器发送请求。 在学习HttpClient相关知识前,我原创 2014-05-20 15:02:58 · 2190 阅读 · 0 评论 -
Http协议知识整理
一、HTTP协议详解之URL篇http(超文本传输协议)是一个基于请求与响应模式的、无状态的、应用层的协议,常基于TCP的连接方式,HTTP1.1版本中给出一种持续连接的机制,绝大多数的Web开发,都是构建在HTTP协议之上的Web应用。HTTP URL (URL是一种特殊类型的URI,包含了用于查找某个资源的足够的信息)的格式如下:http://host[":"port][abs_pat原创 2014-05-21 14:13:59 · 1764 阅读 · 0 评论 -
HttpClient之常见问题整理
字符编码 某目标页的编码可能出现在两个地方,第一个地方是服务器返回的http头中,另外一个地方是得到的html/xml页面中。 在http头的Content-Type字段可能会包含字符编码信息。例如可能返回的头会包含这样子的信息:Content-Type: text/html; charset=UTF-8。这个头信息表明该页的编码是UTF-8,但是服务器返回的头信息未必与内容能匹配上。比如原创 2014-05-20 21:23:42 · 2014 阅读 · 0 评论 -
HttpClient之源码导入MyEclipse
1. 下载commons-httpclient-3.1源码,解压。官方地址:http://hc.apache.org/index.html2.在MyEclipse中新建Java Project工程,在新建的工程上右键->Import->FileSystem->Next->Browse,选择解压的HttpClient源码文件Src导入2. 导入工程后,分别选择对应的源码文件夹原创 2014-05-20 20:22:06 · 2486 阅读 · 0 评论 -
HttpClient之参数设置
HttpClient中的参数设置主要包括:请求头Header,响应头Header、主机配置信息、及管理连接的参数设置。 包org.apache.commons.httpclient.params中的各个类用于HttpClient整个调用过程中参数的设置,开发者直接调用使用的包括HttpConnectionManagerParams、HttpClientParams、HostParams。原创 2014-05-20 19:46:00 · 18626 阅读 · 1 评论 -
HttpClient之URI
一、URL简介标准的URL格式:协议模式://主机名:可选的端口/资源路径?可选查询#可选的片段即:Scheme://authority:port/path?query#fragment完整的URL格式:协议模式://用户名:密码@主机名:可选的端口/资源路径?可选查询#可选的片段即:Scheme://userid:password@authority:port/path?原创 2014-05-23 20:37:20 · 3502 阅读 · 0 评论 -
Eclipse集成Scrapy配置调试
Eclipse中安装PyDev插件后可以使用Eclipse开发Python,下面列出,如何在Eclipse中开发调试scrapy项目。下面假设我们已配置完并可用环境,包括:安装Python环境、Eclipse集成PyDev插件、安装scrapy环境。(1)新建scrapy项目。选择一个文件夹下,按住Shift并右键【在此处打开命令窗口(w)】,在dos上运行scrapy startproj原创 2015-08-29 00:01:38 · 7506 阅读 · 4 评论