Python之初识爬虫

最新推荐文章于 2024-08-01 17:00:14 发布

Java全栈研发大联盟

最新推荐文章于 2024-08-01 17:00:14 发布

阅读量504

点赞数

分类专栏： Python爬虫文章标签： Python之初识爬虫

Python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在这里插入图片描述

什么是Request,Response？

浏览器发送消息给网址所在的服务器，这个过程就叫做HTPP Request

服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做相应的处理，然后把消息回传给浏览器，这个过程就是HTTP Response

浏览器收到服务器的Response信息后，会对信息进行相应的处理，然后展示

Request中包含什么？

请求方式

主要有：GET/POST两种类型常用，另外还有HEAD/PUT/DELETE/OPTIONS
GET和POST的区别就是：请求的数据GET是在url中，POST则是存放在头部

GET:向指定的资源发出“显示”请求（“显示”的意思就是把请求暴露在url中）。使用GET方法应该只用在读取数据（就是只通过该url来访问，读取数据，而不是用来写数据），而不应当被用于产生“副作用”的操作中，例如在Web Application中。其中一个原因是GET可能会被网络蜘蛛等随意访问（理由：如果我们把“写数据操作”的接口url以GET方式来请求的话，就会暴露在html中，这样的话就会被爬虫给爬取到我们的“写数据操作”的接口url，危害会很大的）

POST:向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源，或二者皆有。

HEAD：与GET方法一样，都是向服务器发出指定资源的请求。只不过服务器将不传回资源的正文部分。它的好处在于，使用这个方法可以在不必传输全部内容的情况下，就可以获取其中“关于该资源的信息”（元信息或称元数据）。（打个比方来描述HEAD的意思，有一个人去图书馆借书，目的是为了看该书的目录和关于该书的一些作者信息，封面信息。而不是为了该书的正文内容）

PUT：向指定资源位置上传其最新内容。

OPTIONS：这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用’*'来代替资源名称，向Web服务器发送OPTIONS请求，可以测试服务器功能是否正常运作。

DELETE：请求服务器删除Request-URI所标识的资源。

请求URL
URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三个部分组成：
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机IP地址(有时也包括端口号)。
第三部分是主机资源的具体地址，如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据。

请求头
包含请求时的头部信息，如User-Agent,Host,Cookies等信息，下图是请求请求百度时，所有的请求头部信息参数
在这里插入图片描述
请求体
请求是携带的数据，如提交表单数据时候的表单数据（POST）

Response中包含了什么

所有HTTP响应的第一行都是状态行，依次是当前HTTP版本号，3位数字组成的状态代码，以及描述状态的短语，彼此由空格分隔。

响应状态
有多种响应状态，如：200代表成功，301跳转，404找不到页面，502服务器错误

1xx消息——请求已被服务器接收，继续处理
2xx成功——请求已成功被服务器接收、理解、并接受
3xx重定向——需要后续操作才能完成这一请求
4xx请求错误——请求含有词法错误或者无法被执行
5xx服务器错误——服务器在处理某个正确请求时发生错误

常见代码： 200 OK 请求成功 400 Bad Request 客户端请求有语法错误，不能被服务器所理解 401 Unauthorized 请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用 403 Forbidden 服务器收到请求，但是拒绝提供服务 404 Not Found 请求资源不存在，eg：输入了错误的URL 500 Internal Server Error 服务器发生不可预期的错误 503 Server Unavailable 服务器当前不能处理客户端的请求，一段时间后可能恢复正常 301 目标永久性转移 302 目标暂时性转移

响应头

如内容类型，类型的长度，服务器信息，设置Cookie,如下图
在这里插入图片描述
响应体
最主要的部分，包含请求资源的内容，如网页HTMl,图片，二进制数据等

能爬取什么样的数据?

网页文本：如HTML文档，Json格式化文本等
图片：获取到的是二进制文件，保存为图片格式
视频:同样是二进制文件
其他：只要请求到的，都可以获取

如何解析数据?

直接处理
Json解析
正则表达式处理
BeautifulSoup解析处理
PyQuery解析处理
XPath解析处理

关于抓取的页面数据和浏览器里看到的不一样的问题?

出现这种情况是因为，很多网站中的数据都是通过js，ajax动态加载的，所以直接通过get请求获取的页面和浏览器显示的不同。

如何解决js渲染的问题？

分析ajax
Selenium/webdriver
Splash
PyV8,Ghost.py

怎样保存数据?

文本：纯文本，Json,Xml等

关系型数据库：如mysql,oracle,sql server等结构化数据库

非关系型数据库：MongoDB,Redis等key-value形式存储

本文转载地址：https://www.cnblogs.com/zhaof/p/6898138.html

Java全栈研发大联盟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python之初识爬虫

什么是Request,Response？浏览器发送消息给网址所在的服务器，这个过程就叫做HTPP Request服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做相应的处理，然后把消息回传给浏览器，这个过程就是HTTP Response浏览器收到服务器的Response信息后，会对信息进行相应的处理，然后展示Request中包含什么？请求方式主要有：GET/POST两种...
复制链接

扫一扫

专栏目录