python爬虫国内外研究现状_Python爬虫在真实世界中的网页解析

Python爬虫在真实世界中的网页解析

我一直在告诉大家怎么去解析一个网页,但忘记了和大家说在真实世界中我们怎么去爬去一个网页,它的运行机制,方法,和整个爬虫的从反爬去到最后成功的一些基础和实用的方法,小白也能体会到抓取数据的愉悦,毕竟写爬虫是一个复杂而枯燥的过程,我不希望大家,被就一个小小的困难所打到。下面废话不多说。

大家看下图当我们在爬去一个网页的时候,其实就是好比我们去看一个网页,点开网页地址的时候,它就向网站的服务器发送了请求,内部运行机制就是用request向服务器发送请求,返回一个response 回应,实际上这种方式是我们都有所耳闻的HTTP协议。

也就是我们的客户端,浏览器与服务器进行对话的方式,既然说道对话的方式,那么就像现实中我们人与人对话一样,我们也讲究方式方法,网路也是如此,我们的request向服务器发起请求也有几种方法,一种是get ,post ,head,HTTP1.1时代,后来有了put,options,connect,trac,delete,大家不用担心它有很多种方法我们记不住,记住get和post这两种请求方法,基本能对百分之九十九的网站接受,这好比一本漫画创江湖,会了这两种方法,我们就可以闯爬虫的江湖了,也没那么高深,大家也别紧张。

那么简单来了解一下get和post的区别,get就是我们单纯的去浏览一个网页,post就比如我们发微博,它是和网页有互动的,所以我们一般用get向静态网页发起请求,

大家看到上图get发起网页请求的步骤,前面是网页协议加上网址,就完成了,学会get我们就可以基本满足了大部分网页,它会返回给我们一个响应码告知我们是否成功,它以一个response返回给我们,就是下图的成功发回一个200响应码,不成功就发回一个403或者404。

我们来形象的看一下,这样说太抽象了,打开一个网页右键检查元素,

开发者工具里的网络里就呈现出一get 就是 我们向网页发起的是get请求,右边看到了返回的响应码200,说明是成功的。

以后写爬虫我们第一步就要像这样向网页先发送请求,返回的网页进行解析,然后抓取。

大家好写得不那么好,但力求人人都看得懂是我一向的终止。晚安各位。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值