爬虫概念

最新推荐文章于 2024-01-31 18:59:33 发布

初相识.

最新推荐文章于 2024-01-31 18:59:33 发布

阅读量263

点赞数 1

本文链接：https://blog.csdn.net/qq_42737056/article/details/86583171

版权

爬虫是一个应用程序,目的是为了从互联网中获取免费,有价值的数据

是由不同的计算机通过某种介质相互连接组成,
互联网是为了使得不同计算机之间可以交换数据
上网指的是,连接到互联网中,获取需要的数据

我们可以把互联网比喻为一座矿山,爬虫就相当于旷工,各大网站就相当于矿石,为我们提供免费的资源

模拟浏览器 – 获取服务器返回的数据 – 解析数据 – 存储

(1)发送请求
使http库向目标站点发起请求,即发送一个Request
Request包含:请求头,请求体等…

(2)获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html, json, 图片,视频等…

(3)解析内容
解析html数据:正则表达式,第三方解析库如:Beautifulsoup，pyquery等
解析json数据：json模块
解析二进制数据:以b的方式写入文件

(4)保存数据
数据库
文件

HTTP是基于请求响应模型,我们在编写爬虫的时候,要关注的点就是请求

4.1.url

4.2.请求方法
get
post

4.3.状态码

   ~~~
	200 请求成功
    3XX 重定向
    4XX 客户端发送的请求有错误
    5XX 服务器端发生了错误
   ~~~

4.4.请求参数
    	get参数放在URL后
    	post参数放在请求体中body中

4.5.请求头
cookie: 用于识别用户的身份,通常在访问一些私有的页面时需要使用cookie
User-Agent:用户代理,用于标识是由什么客户端发起的请求
referer: 用于判断用户是从哪个链接跳过来的

 4.6.请求体
   		 仅当请求方法为post时才有请求体

4.7.响应头
    	location:当状态码为3XX的时候,直接跳转这个参数的链接

4.8.响应体

   		1.html      使用re 或是其他来解析
    	2.二进制    直接写入文件
    	3.json      反序列化即可

关注