Python爬虫初识

最新推荐文章于 2024-08-01 17:00:14 发布

三里十步

最新推荐文章于 2024-08-01 17:00:14 发布

阅读量250

点赞数

分类专栏：学习文章标签：爬虫

本文链接：https://blog.csdn.net/mikkles/article/details/78723266

版权

学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

目标对象为静态网站

爬虫架构

URL管理器
网页下载器(urllib2)
网页解析器(BeautifulSoup)

运行流程

对象介绍

URL管理器：管理带抓取的URL集合和已经抓取的URL集合

避免重复抓取、循环抓取

功能：

添加新URL到待爬集合中
判断URL是否在容器中已有
判断是否爬取结束
获取待爬URL
将待爬URL转为已爬

存取方式：

内存：set()
关系数据库：MySQL
缓存数据库：redis

网页下载器

常见的网页下载器：urllib2、requests

import urllib2
response = urllib2.urlopen('http://www.baidu.com')
print response.getcode()#获取状态码,200表示获取成功
cont = response.read()#读取内容

import urllib2
request = urllib2.Request(url)#创建request对象
request.add_data('a','1')#添加用户数据
request.add_header('Aser-Agent','Mozilla/5.0')#设置头信息
response = urllib2.urlopen(request)

import urllib2,cookielib
cj = cookielib.CokieJar()
#HTTPCookieProcessorProxyHandler,HTTPSHandler,HTTPRedirectHandler
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response = urllib2.urlopen("http://www.aidu.com/")

应用

资源聚合
数据分析

三里十步

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫初识

目标对象为静态网站##爬虫架构URL管理器网页下载器(urllib2)网页解析器(BeautifulSoup)Created with Raphaël 2.1.0URL管理器URL管理器网页下载器网页下载器网页解析器网页解析器提供URL链接提供网页内容补充网页中关联的URL地址运行流程Created with Raphaël 2.1.0调度器调度器URL管理器URL管理器下载器下载器解析器解
复制链接

扫一扫

专栏目录