网络/网页
iteye_17257
这个作者很懒,什么都没留下…
展开
-
HTTP的Header信息详解
做了一段时间爬虫,发觉http header十分有用比如一些防爬虫网站在没有header的情况下是不让访问的,但是header 里面的参数意义是什么呢?下面来看一下以下信息为转载HTTP 知识点之一:头部解释==================================================================================...原创 2010-08-13 10:39:42 · 120 阅读 · 0 评论 -
不可见字符正则匹配
不可见字符通常是指页面显示时看不到的字符比如\r\n\t\f 换行符,制表符等。他们可以统一通过\s表示但是还有一些aciss的字符可以通过\\p{Z}来匹配2012-02-17 11:29:14 · 3306 阅读 · 0 评论 -
htmlparser抽取表格
[b][color=red]原创文章:转载请注明出处[/color][/b][code="java"]try { Parser parser=new Parser("http://detail.zol.com.cn/260/259165/param.shtml");// NodeFilter nodeFilter=new HasAttributeFilter("","");...2011-01-25 16:34:07 · 261 阅读 · 0 评论 -
HTTP header
有四种头标:1. 通用头标 既可用于请求有可用于响应,并且是作为一个整体而不是特定资源 与事务相关联。2. 请求头标 允许客户端传递关于自身信息和希望的响应形式。3. 响应头标 服务器用于传递自身信息和响应。4. 实体头标 定义被传送资源的信息。既可用于请求,也可用于响应头标以如下的单行形式发送。:其中...原创 2010-12-22 15:47:15 · 100 阅读 · 0 评论 -
如何读取gzip压缩网页
最近在抓取搜狐的时候发现下载下来的页面都是乱码,开始以为是解码出了问题可是查找半天无果,很是郁闷。返回的状态码是200,怎么都是乱码呢?难道是页面做了加密?其实这是搜狐为了加快网页加载速度对页面做了压缩。哎,我out了~~~~下面来解决这个问题吧~~~1.如何判断页面是否是压缩的URLConnection hc = null;hc.getHeaderField("Conte...2010-11-30 10:26:01 · 170 阅读 · 0 评论 -
ASCII码
来自:http://www.learnsky.com/index.asp ASCII是英文American Standard Code for Information Interchange的缩写。ASCII码是目前计算机最通用的编码标准。因为计算机只能接受数字信息,ASCII码将字符作为数字来表示,以便计算机能够接受和处理。比如大写字母M的ASCII码是77。ASC...原创 2010-05-31 10:35:45 · 94 阅读 · 0 评论 -
爬虫 js,flash,ajax网页(JREX)
抓取的过程中会遇到很多对爬虫不友好的页面,比如js,ajax,flash等等,正在为这些页面苦恼时发现JREX,调用firefox内核渲染页面可以很好的解决这些问题不过现在JREX已经没有人维护了最新版是在05年发布的"JRex" is a Java Browser Component with set of API's for Embedding Mozilla GECKO with...原创 2010-11-09 15:44:51 · 384 阅读 · 0 评论 -
模板抽取思路
heritrix抓取下来的东西,其实就和下载器下载下来一样。我们必须用自己的方法去抽取出一些有用的信息恩,以前一直用htmlparser提取,虽然简便易用。可是维护起来是一个大麻烦而且编写程序的成本很高!等等!!!现在做这个采用了新的思路, html——>XML or XHTML(整个HTML转为XML) --> XSLT提取——>最终XML(需要的最终数据的XML)这个要做的就...2010-04-09 11:07:07 · 176 阅读 · 0 评论 -
抓取中应该考虑GB编码的问题
今天,测试的同学在测试我的爬虫的时候发现了一些‘?’的字符,也就是无法识别编码的字符。开始我很诧异,毕竟我用了自动编码识别的很成熟的架构,为虾米会有这种字符?仔细分析了一下页面,页面的编码是'gbk'而用我的程序识别出来是'gb2312'因为分析只采集了前面100个字符作为样本,所以识别出来的是'gb2312'。因为'gb2312'是属于'gbk',只包括一些常见汉字,如果万一有一个偏的汉字出现那...2011-06-30 13:52:51 · 103 阅读 · 0 评论 -
RPC
来自百度百科 [url]http://baike.baidu.com/view/32726.htm[/url]RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨...原创 2011-11-18 17:54:01 · 87 阅读 · 0 评论