Day28.爬虫的基本原理

本文介绍了爬虫的基本原理,包括发起HTTP请求、解析响应内容和保存数据。详细讲解了Request和Response的构成,以及如何处理JavaScript渲染的网页。数据抓取涉及网页文本、图片、视频等多种类型,解析方法包括正则、BeautifulSoup等。对于遇到的JS渲染问题,提出了使用Selenium等工具的解决方案。最后讨论了数据的多种保存方式。
摘要由CSDN通过智能技术生成

爬虫的基本原理



前言

本文主要是介绍一下爬虫的基本原理,以基础为主。


一. 基本原理

1.1 什么是爬虫

比较官方的解释为:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

个人的理解比较简洁:爬虫就是请求网站并提取数据自动化程序。其中主要的三个点就是请求,提取,自动化;定义是一个程序。

1.2 爬虫的基本流程

  1. 发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。

  2. 解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步处理。

  3. 获取响应内容:如果服务器能正常响应(响应码为200),会得到一个Response,Response的内容便是索要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。

  4. 保存数据:保存形式多样,可以保存文本,也可以保存至数据库,或者保存至特定格式的文件。

1.3 什么是 Request 和 Response?

简单的讲:就是我们向服务器发送Request,然后服务器通过一系列的内部操作后向我们发送Response。细分起来,也就是分为三大步骤:

  1. 浏览器发送消息给该⽹址所在的服务器,这个过程叫做 HTTP Request。
  2. 服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做 HTTP Response。
  3. 浏览器收到服务器的 Response 信息后,会对信息进⾏相应处理,然后展示。

这就是我们平时上网,在每次点击的过程中浏览器与服务器之间的一个过程。

1.3.1 Request 中包含什么?

  1. 请求方式:主要有GET,POST两种类型;另外还有HEAD,PUT,DELETE,OPTIONS等。
  2. 请求头:包含请求时的头部信息,如User-Agent,Host,Cookies等信息。
  3. 请求URL:URL全程统一资源定位符,入一个网页文档,一张图片,一个视频等都可以用URL唯一来确定。
  4. 请求体:请求时额外携带的数据如表单提交时的表单数据。

1.3.2 Response 中包含什么?

  1. 响应状态:有多种响应状态,如200代表成功,301跳转,404找不到页面,502服务器错误。
  2. 响应头:如内容类型,内容长度,服务器信息,设定Cookie等等。
  3. 响应体:最主要的部分,包含了请求资源的内容,如网页的HTML,图片二进制数据等。

二. 数据抓取

主要有这些类型数据:

  1. 网页文本: HTML文档,Json格式文本等。
  2. 图片:获取到的是二进制文件,保存为图片格式。
  3. 视频:同为二进制文件,保存为视频格式即可。
  4. 其他:只要是能请求到的,都能获取。

2.1 解析网页的方法

  1. 直接处理
  2. Json解析
  3. 正则表达式
  4. BeautifulSoup
  5. PyQuery
  6. XPath

2.2 为何我们抓到的和浏览器看到的不一样?

其实现在随着前端(网页)技术的发展,很多网站都会或多或少的有反爬虫等保护机制,而JavaScript(JS)渲染就是一种常见的技术。那如何解决JS渲染的问题呢?

  1. 分析Ajax请求
  2. Selenium / WebDriver
  3. Splash
  4. PyV8, Ghost.py

2.3 可以怎样保存数据?

  1. 文本:纯文本,Json,Xml等。
  2. 关系型数据库:如MySQL,Oracle,SQLServer等具有结构化结构形式存储。
  3. 非关系型数据库:如MongoDB,Redis等Key-Value形式存储。
  4. 二进制文件:如图片,视频,音频等直接保存成特定格式即可。

总结

今天主要是简单的学习了一下爬虫的基本原理,浏览器在使用时的底层过程,这样也有利于理解后面的爬虫操作。其次就是爬虫的一个基本流程,包括发送请求,网站接受并做出反应,获得服务器的反馈,并对这些反馈进行解析,而一些有用的数据如何进行保存,而且对不同的数据有着不同的保存方式。

溜了遛了,脑壳疼。Loading(28/100)。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值