爬虫
free丿love
这个作者很懒,什么都没留下…
展开
-
爬虫乱码的解决办法
写爬虫时肯定是要去考虑乱码的问题,刚开始自己没怎么有思路,最后看了亮哥解决乱码的博客。才明白,主要一下几点:1:解析服务端返回的header中content-type. 得到编码,改编码是什么就按照什么去解析返回的字节流。 2:如果服务端header中没有content-type信息,就按照 utf-8 解析返回的内容 。再去解析meta标签 得到编码,并作为最终的解析服务端返回字节流的编码。(因原创 2016-01-02 19:01:25 · 4233 阅读 · 0 评论 -
Cpdetector
cpdector 就是一款文档编码检测工具,可以检测 xml,html文档编码类型。是爬虫,浏览器的一款很好的辅助工具。 是基于统计学原理的,来判断文档的编码,不保证正确。文档开始都是字节流,要根据字节流得到编码类型。那么 ascii 编码占用一个字节,iso8859-1也是占用1个字节,utf-8是可变长编码占用字节不确定,gbk编码占用2个字节。那么它怎么根据字节流来推断其编码呢?因为肯定原创 2016-01-03 20:37:24 · 2447 阅读 · 0 评论 -
编码介绍
http://my.oschina.net/chape/blog/201725转载 2016-01-03 20:37:59 · 236 阅读 · 0 评论 -
爬虫技术分享
(一)网络爬虫 网络爬虫是一个自动提取网页的程序或者脚本,其原理就是用程序模拟浏览器的访问行为,进行网页的下载。(二)网络爬虫的基本结构及工作流程一个通用的网络爬虫的框架如图所示:网络爬虫的基本工作流程如下:1.首先选取一部分精心挑选的种子URL;2.将这些URL放入待抓取URL队列;3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来原创 2016-01-08 16:22:24 · 451 阅读 · 0 评论