Day28.爬虫的基本原理

最新推荐文章于 2023-03-07 09:22:14 发布

晶晶家的小可爱

最新推荐文章于 2023-03-07 09:22:14 发布

阅读量128

点赞数

分类专栏： 100 Days With Python 文章标签：网络 python http ajax mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tomandjava/article/details/115636625

版权

100 Days With Python 专栏收录该内容

43 篇文章 6 订阅

订阅专栏

本文介绍了爬虫的基本原理，包括发起HTTP请求、解析响应内容和保存数据。详细讲解了Request和Response的构成，以及如何处理JavaScript渲染的网页。数据抓取涉及网页文本、图片、视频等多种类型，解析方法包括正则、BeautifulSoup等。对于遇到的JS渲染问题，提出了使用Selenium等工具的解决方案。最后讨论了数据的多种保存方式。

摘要由CSDN通过智能技术生成

爬虫的基本原理

文章目录

爬虫的基本原理
前言
一. 基本原理
二. 数据抓取
总结

前言

本文主要是介绍一下爬虫的基本原理，以基础为主。

一. 基本原理

1.1 什么是爬虫

比较官方的解释为：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

个人的理解比较简洁：爬虫就是请求网站并提取数据的自动化程序。其中主要的三个点就是请求，提取，自动化；定义是一个程序。

1.2 爬虫的基本流程

发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。
解析内容：得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步处理。
获取响应内容：如果服务器能正常响应（响应码为200），会得到一个Response，Response的内容便是索要获取的页面内容，类型可能有HTML,Json字符串，二进制数据（如图片视频）等类型。
保存数据：保存形式多样，可以保存文本，也可以保存至数据库，或者保存至特定格式的文件。

1.3 什么是 Request 和 Response？

简单的讲：就是我们向服务器发送Request，然后服务器通过一系列的内部操作后向我们发送Response。细分起来，也就是分为三大步骤：

浏览器发送消息给该⽹址所在的服务器，这个过程叫做 HTTP Request。
服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做相应处理，然后把消息回传给浏览器。这个过程叫做 HTTP Response。
浏览器收到服务器的 Response 信息后，会对信息进⾏相应处理，然后展示。

这就是我们平时上网，在每次点击的过程中浏览器与服务器之间的一个过程。

1.3.1 Request 中包含什么？

请求方式：主要有GET,POST两种类型；另外还有HEAD,PUT,DELETE,OPTIONS等。
请求头：包含请求时的头部信息，如User-Agent，Host，Cookies等信息。
请求URL：URL全程统一资源定位符，入一个网页文档，一张图片，一个视频等都可以用URL唯一来确定。
请求体：请求时额外携带的数据如表单提交时的表单数据。

1.3.2 Response 中包含什么？

响应状态：有多种响应状态，如200代表成功，301跳转，404找不到页面，502服务器错误。
响应头：如内容类型，内容长度，服务器信息，设定Cookie等等。
响应体：最主要的部分，包含了请求资源的内容，如网页的HTML，图片二进制数据等。

二. 数据抓取

主要有这些类型数据：

网页文本： HTML文档，Json格式文本等。
图片：获取到的是二进制文件，保存为图片格式。
视频：同为二进制文件，保存为视频格式即可。
其他：只要是能请求到的，都能获取。

2.1 解析网页的方法

直接处理
Json解析
正则表达式
BeautifulSoup
PyQuery
XPath

2.2 为何我们抓到的和浏览器看到的不一样？

其实现在随着前端（网页）技术的发展，很多网站都会或多或少的有反爬虫等保护机制，而JavaScript（JS）渲染就是一种常见的技术。那如何解决JS渲染的问题呢？

分析Ajax请求
Selenium / WebDriver
Splash
PyV8, Ghost.py

2.3 可以怎样保存数据？

文本：纯文本，Json，Xml等。
关系型数据库：如MySQL,Oracle，SQLServer等具有结构化结构形式存储。
非关系型数据库：如MongoDB,Redis等Key-Value形式存储。
二进制文件：如图片，视频，音频等直接保存成特定格式即可。

总结

今天主要是简单的学习了一下爬虫的基本原理，浏览器在使用时的底层过程，这样也有利于理解后面的爬虫操作。其次就是爬虫的一个基本流程，包括发送请求，网站接受并做出反应，获得服务器的反馈，并对这些反馈进行解析，而一些有用的数据如何进行保存，而且对不同的数据有着不同的保存方式。

溜了遛了，脑壳疼。Loading（28/100）。。。

晶晶家的小可爱

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。