![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 69
上善若水。。
学无止境
展开
-
requests库的使用(一篇就够了)
urllib库使用繁琐,比如处理网页验证和Cookies时,需要写Opener和Handler来处理。为了更加方便的实现这些操作,就有了更为强大的requests库。基本用法请先参考requests库安装一节,确保安装了requests库。下面案例使用requests库中的get( )方法发送了一个get请求。#导入requests库import requests#发送一个get请求并得到响应r = requests.get('https://www.baidu.com')#查看响应对象的类原创 2022-01-05 20:38:30 · 106827 阅读 · 14 评论 -
urllib库的使用(一篇就够了)
在Python2中,有urllib和urllib2两个库来实现请求的发送,而在Python3中,统一为了urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。urllib是Python内置的HTTP请求库,它包含4个模块:request:最基本的HTTP请求模块,可以用来模拟发送请求。error:异常处理模块,如果出现请求错误,可以捕获异常,然后进行重试或其他操作。parse:工具模块,提供了许多URL处理方法,如拆分、解析、合并原创 2022-01-05 20:06:33 · 19159 阅读 · 8 评论 -
代理服务器
爬虫正常运行过程中正常抓取数据,但有时可能就会错误,比如403 Forbidden,表示服务器拒绝客户端的访问,你可能会看到“您的IP访问评率太高”这样的提示。出现这种现象的原因时网站采取了一些反爬虫措施。比如,当服务器检测到某个IP在单位时间内的请求次数超过了设定的阈值,就会直接拒接服务,返回一些错误信息,这种情况称为封IP。解决这种问题的有效方式之一时使用代理伪装IP。一、代理的基本原理代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息,可以将它理解原创 2022-01-02 15:14:05 · 2317 阅读 · 0 评论 -
爬虫的基本原理:爬虫能爬什么数据
爬虫可以爬取的数据大致有四类:网页源代码。最常见的便是常规网页,它们对应着HTML代码,而最长抓取的便是HTML源代码。JSON字符串。可能有些网页返回的不是HTML源代码,而是一个JSON字符串(API接口大多采用这种形式),这种格式的数据方便传输和解析,爬虫同样可以爬取,而且数据提取更加方便。二进制数据。各种二进制数据,如图片、视频和音频等,利用爬虫可以将这些二进制数据抓取下来,然后保存成对应的文件名。各种扩展名的文件。如CSS、JavaScript和配置文件等,只要在浏览器里面可以访问到,就原创 2022-01-02 11:06:42 · 12879 阅读 · 0 评论 -
爬虫的基本原理:爬虫概述及爬取过程
一、什么是爬虫爬虫就是获取网页并提取和保存信息的自动化程序。1)我们可以把互联网比作一张大网,而爬虫(网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。2)虽然不使用爬虫我们通过手工方式也可以提取网页中的信息,但是当量特别大或者想快速获原创 2022-01-02 10:57:09 · 12214 阅读 · 0 评论 -
HTTP基本原理:响应
响应,由服务器返回给客户端。一个响应可以分为三部分:响应状态码(Response Status Code)、响应头(Response Headers)、响应体(Response Body)。一、响应状态码响应状态码表示服务器的响应状态, 如200表示服务器正常响应,404代表客户端请求的页面在服务端不存在、500代表服务器内部发生错误。在爬虫中,我们可以根据响应状态码来判断服务器响应状态,如状态码为200则证明成功返回数据,进行进一步的处理,否则直接忽略。常用的响应状态码如下表所示:状态码说原创 2022-01-01 16:13:38 · 1098 阅读 · 0 评论 -
HTTP基本原理:请求
请求,由客户端向服务器发出。一个请求可以分为4部分内容:请求方法(Request Method)、请求路径(Request URL)、请求头(Request Headers)、请求体(Request Body)。一、请求方法1)常用的请求方法有两种:GET和POST。在浏览器中直接输入URL并回车,这相当于发起一个GET请求,请求的参数会直接拼接在URL的后面。例如,在百度中搜索Python,这就是一个GET请求,URL为https://www.baidu.com/s?wd=Python,其中URL原创 2022-01-01 15:07:49 · 1542 阅读 · 0 评论 -
HTTP基本原理:HTTP和HTTPS
在访问某一网站时,其URL的开头会有http或https,它就是访问资源所使用的协议类型。有时,我们还会看到ftp、sftp、smb开头的URL,这些都是协议类型。在爬虫中,我们抓取的页面通常就是http或https协议的。一、HTTPHTTP的全称是Hyper Text Transfer Protocol,即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。目前广泛使用的是HTTP 1.1版本。二、HTTPSHTTPS的全称是Hy原创 2022-01-01 12:22:11 · 1134 阅读 · 0 评论