梦幻的蔷薇色

迁移至新博客:hiyongheng.cn-------我也向往蔷薇色的生活啊,可我是灰色的。

学习python写网络爬虫(四)

python自带的robotparser模块可以解析robots.txt文件,可以使用urllib2来支持代理,但是python的http模块的requests来实现该功能会更友好。可以通过使用datetime模块和time模块在两次下载之间添加延时,可以防止被封禁。在爬取动态网页时,由于一些网站...

2016-09-24 18:31:24

阅读数 841

评论数 0

学习python写网络爬虫(三)

链接爬虫,通过跟踪页面内的链接,通过正则表达式来确定需要下载的页面的url,通过set来去除重复的链接# coding=utf-8 import urllib2 import re import urlparse def download(url, user_agent='wswp', num_r...

2016-09-20 23:07:18

阅读数 444

评论数 2

学习python写网络爬虫(二)

通过网站地图爬取网站 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 csdn的robots.txt:http://www.csdn.n...

2016-09-17 09:44:43

阅读数 602

评论数 0

学习python写网络爬虫(一)

寻找网站所有者,可以使用WHOIS协议查看域名的注册者是谁。使用whois模块可以查看。 在linux在安装模块:pip install python-whois 在windows安装模块: 1. 下载模块并解压 2. 打开cmd,定位的解压模块目录 3. 运行命令:setup.p...

2016-09-16 23:27:47

阅读数 371

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭