爬虫入门
自学爬虫记录
偷吃了老鼠的土豆
戒骄戒躁,脚踏实地,坚持不懈,愈挫愈勇。
展开
-
python爬虫之解析链接
解析链接1. urlparse() & urlunparse()urlparse() 是对url链接识别和分段的,API用法如下:urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)他的三个参数:urlstring: 这是一个必须项,即待解析的url。scheme: 它是默认协议。假如这个链接没有带协议信息,会将这个作为默认协议。from urllib.parse import urlparser原创 2020-12-01 19:40:47 · 364 阅读 · 1 评论 -
Python爬虫之异常处理
处理异常1. URLErrorURLEroor来自urllib库的error模块,它继承自OSError类,是error异常模块的基类,由request模块生成的异常可以通过捕获这个类来处理。他的属性reason,可以返回错误的原因。下面展示一个例子:from urllib import request,errortry : response = request.urlopen('http://cuiqingcai.com/index.htm')except error.URLErr原创 2020-11-12 14:39:22 · 411 阅读 · 0 评论 -
Python爬虫之发送请求
发送请求1. urlopenurllib.request 模拟了构造HTTP请求最基本的形式urlopen()函数的API:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)除了第一个参数可以传递url外,和可以传递后边的参数。1.1 传递urlimport urllib.requestresponse = urllib.原创 2020-11-09 17:05:59 · 507 阅读 · 0 评论 -
Python爬虫之requests库的用法
urllib库中的urlopen()方法实际上是以GET方式请求网页,而requests中相应的方法就是get()方法,是不是感觉表达更明确一些?下面通过实例来看一下:import requestsr = requests.get('https://www.baidu.com')print(type(r))print(r.status_code)print(type(r.text...原创 2020-03-22 22:27:42 · 399 阅读 · 0 评论 -
Python爬虫之分析Robots协议
1. Robots协议Robots协议是用来告诉搜索引擎那些网页是可以爬取的,哪些是不行的。搜索爬虫访问一个站点时,它首先会检查这个站点根目录下是否存在robots.txt文件,如果存在,搜索爬虫会根据其中定义的爬取范围来爬取。如果没有找到这个文件,搜索爬虫便会访问所有可直接访问的页面。一般形式:User-agent: *Disallow: /Allow: /public/...原创 2020-03-22 21:15:19 · 780 阅读 · 2 评论