爬虫基础知识(一)

什么是爬虫?

一种可以爬取网页上数据的自动化程序。

爬虫原理

互联网上的网页一般都托管在服务器上,服务器24小时运行,随时等待用户(浏览器)发送请求,服务器会即刻返回数据给用户。

爬虫的首个步骤就是模拟浏览器向服务器发送请求,一般的服务器就会将爬虫当成用户,将数据返回给爬虫。还有一些网站建立了反爬虫机制,对此也有解决方案,后续学习会涉及,在此先不做赘述。

数据处理

服务器返回的数据可能有多种格式

  • JSON
  • HTML
  • 二进制,等等。

进行处理后的数据可以保存在数据库或者硬盘里。

抓取数据包

既然我们要模拟浏览器发送请求到服务器,那么我们首先要知道,浏览器的请求方式

HTTP的请求方式有很多种:

  • GET、POST、PUT、DELETE、HEAD、OPTIONS、TRACE

我们先了解一下最常见的GET和POST请求

GET请求

例如:在百度键入“金希澈”搜索

按F12查看,点击切换到network选项,

可以看到下方的请求的URL:https://www.baidu.com/sugrec?prod=pc_his&from=pc_web&json=1&sid=1429_21121_18560_20692_29521_28519_29098_29567_28837_29221_22159&hisdata=%5B%7B%22time%22%3A1557844580%2C%22kw%22%3A%22%E7%AC%AC%E4%B8%89%E6%96%B9ap%E6%A3%80%E6%B5%8B%22%7D%2C%7B%22time%22%3A1557844588%2C%22kw%22%3A%22yolov3%E7%AC%AC%E4%B8%89%E6%96%B9ap%E6%A3%80%E6%B5%8B%22%7D%2C%7B%22time%22%3A1557894236%2C%22kw%22%3A%22%E4%B8%AD%E5%8D%97%E5%A4%A7%E5%AD%A6%22%7D%5D&req=2&sc=eb&csor=0&cb=jQuery1102008027458108845509_1564379803202&_=1564379803204

问号?后面的这些,全部都是GET请求的参数

这些参数以键值对(参数名=参数值)的形式实现,例如:

prod=pc_his

sid=1429_21121_18560_20692_29521_28519_29098_29567_28837_29221_22159

因此,我们使用python来写GET请求的时候,直接在URL后面加 “ ?”,然后添加参数值就好。

例如:我要在百度搜索“ 希澈”,那么就是

"https://www.baidu.com/s?wd=希澈"

 

POST请求

POST请求是在,我们做一些信息提交的动作时候,例如:注册,登陆...的时候发出的请求。

 

 

我打开百度,进行登录操作,点击登陆后,

请求了login接口,如下图所示,请求方法就是:POST

POST不会直接放在URL上,会以form表单的形式将数据提交给服务器。

POST请求把请求参数都放在request body里面,还对密码进行了加密,相对安全。

 

 请求头(request head)

提交http请求时,除了提交参数之外,我们还需要定义一些请求的头部信息。

包括:Accept、Cookie、 Host、User-Agent等。

 

 

 这些信息是我们欺骗服务器需要用到的参数,告诉服务器,我们发出的请求是正规请求,比如:

我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话,

User-Agent 告诉服务器我们是浏览器请求的。

 

服务器响应

响应码是我们向服务器发出请求后,服务器给我们返回的HTTP状态码。

常见的响应码

200:OK(成功请求)

404:找不到页面

504:Gateway Timeout

请求成功后,服务器除了响应码还会返回我们响应头,响应头的信息主要是告诉我们数据以什么形式展现。

响应体:即为服务器返回给我们的数据,点击response就能看到相关数据。

 

 如上图所示这些是服务器返回给我们的HTML的源代码。对于不同请求我们获取的数据也不同,有HTML的也有JSON的还有二进制的等等,针对不同情况有不同的解析手段。

 

 

 

 

 

参考:

  1. https://mp.weixin.qq.com/s?__biz=MzU2ODYzNTkwMg==&mid=2247484054&idx=1&sn=1e3da765f7b409a2af3bfd1b8c882091&chksm=fc8bba07cbfc33115826c7b8077839e96ac7fb9545df29f41755cd727603e0ad7d18d1658c1a&scene=21#wechat_redirect
  2. https://mp.weixin.qq.com/s/aqOuCZKxpEW2_P2fkfWReg
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值