爬虫自学

最新推荐文章于 2024-08-20 13:16:22 发布

ShulamiteWang

最新推荐文章于 2024-08-20 13:16:22 发布

阅读量511

点赞数

分类专栏： python 文章标签：爬虫

本文链接：https://blog.csdn.net/wangxiaohua_147/article/details/53197934

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬虫的价值为我所用
基于数据做自己需要的东西

爬虫架构

  爬虫的调度端 用来启动爬虫，终止爬虫，监视爬虫的运行情况。
      |URL管理器 ，对已经爬取的URL和待爬取的URL进行管理。   然后取出一个待爬取的URL传给网页下载器
      |网页下载器，网页下载器会将URL指定的网页组成一个字符串。字符串会传给网页解析器
      |网页解析器，一方面解析出有价值的东西，另一方面会解析出其他网页的URL，这些URL可以补充进URL管理器

动态运行流程

这里写图片描述

**URL管理器**

这里写图片描述
两个爬虫同时获取护具的时候的情况
下面是URL管理器流程

实现方式
1.待爬取的URL和已经爬取的URL集合存储在内存，将存储在待爬取的URL：set();已经爬取的URL集合:set();
2.mysql关系型数据库 urls(url,is_crawled)待爬取的URL和已经爬取的URL集合
3.redis缓存数据库待爬取的URL set;已经爬取的URL集 set.

网页下载器
这里写图片描述

下载器：
urllib2(python官方的基础模块)
rquest

urllib2
方法1：

import   urllib2
#直接请求
response =  urllib2. urlopen('http://www.csdn.net.com')
#获取状态码
print response.getcode()

cont response.read()

方法2：
添加data ,http header

这里写图片描述

方法3：
添加特殊情景处理器
这里写图片描述

ShulamiteWang

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录