什么是爬虫?
一种可以爬取网页上数据的自动化程序。
爬虫原理
互联网上的网页一般都托管在服务器上,服务器24小时运行,随时等待用户(浏览器)发送请求,服务器会即刻返回数据给用户。
爬虫的首个步骤就是模拟浏览器向服务器发送请求,一般的服务器就会将爬虫当成用户,将数据返回给爬虫。还有一些网站建立了反爬虫机制,对此也有解决方案,后续学习会涉及,在此先不做赘述。
数据处理
服务器返回的数据可能有多种格式
- JSON
- HTML
- 二进制,等等。
进行处理后的数据可以保存在数据库或者硬盘里。
抓取数据包
既然我们要模拟浏览器发送请求到服务器,那么我们首先要知道,浏览器的请求方式
HTTP的请求方式有很多种:
- GET、POST、PUT、DELETE、HEAD、OPTIONS、TRACE
我们先了解一下最常见的GET和POST请求
GET请求
例如:在百度键入“金希澈”搜索
按F12查看,点击切换到network选项,
问号?后面的这些,全部都是GET请求的参数
这些参数以键值对(参数名=参数值)的形式实现,例如:
sid=1429_21121_18560_20692_29521_28519_29098_29567_28837_29221_22159
因此,我们使用python来写GET请求的时候,直接在URL后面加 “ ?”,然后添加参数值就好。
例如:我要在百度搜索“ 希澈”,那么就是
"https://www.baidu.com/s?wd=希澈"
POST请求
POST请求是在,我们做一些信息提交的动作时候,例如:注册,登陆...的时候发出的请求。
我打开百度,进行登录操作,点击登陆后,
请求了login接口,如下图所示,请求方法就是:POST
POST不会直接放在URL上,会以form表单的形式将数据提交给服务器。
POST请求把请求参数都放在request body里面,还对密码进行了加密,相对安全。
请求头(request head)
提交http请求时,除了提交参数之外,我们还需要定义一些请求的头部信息。
包括:Accept、Cookie、 Host、User-Agent等。
这些信息是我们欺骗服务器需要用到的参数,告诉服务器,我们发出的请求是正规请求,比如:
我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话,
User-Agent 告诉服务器我们是浏览器请求的。
服务器响应
响应码是我们向服务器发出请求后,服务器给我们返回的HTTP状态码。
常见的响应码
200:OK(成功请求)
404:找不到页面
504:Gateway Timeout
请求成功后,服务器除了响应码还会返回我们响应头,响应头的信息主要是告诉我们数据以什么形式展现。
响应体:即为服务器返回给我们的数据,点击response就能看到相关数据。
如上图所示这些是服务器返回给我们的HTML的源代码。对于不同请求我们获取的数据也不同,有HTML的也有JSON的还有二进制的等等,针对不同情况有不同的解析手段。