爬虫基础知识（一）

最新推荐文章于 2024-10-18 14:25:40 发布

Karen_yuan

最新推荐文章于 2024-10-18 14:25:40 发布

阅读量188

点赞数

文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Karen_yuan/article/details/97634953

版权

什么是爬虫？

一种可以爬取网页上数据的自动化程序。

爬虫原理

互联网上的网页一般都托管在服务器上，服务器24小时运行，随时等待用户（浏览器）发送请求，服务器会即刻返回数据给用户。

爬虫的首个步骤就是模拟浏览器向服务器发送请求，一般的服务器就会将爬虫当成用户，将数据返回给爬虫。还有一些网站建立了反爬虫机制，对此也有解决方案，后续学习会涉及，在此先不做赘述。

数据处理

服务器返回的数据可能有多种格式

JSON
HTML
二进制，等等。

进行处理后的数据可以保存在数据库或者硬盘里。

抓取数据包

既然我们要模拟浏览器发送请求到服务器，那么我们首先要知道，浏览器的请求方式

HTTP的请求方式有很多种：

GET、POST、PUT、DELETE、HEAD、OPTIONS、TRACE

我们先了解一下最常见的GET和POST请求

GET请求

例如：在百度键入“金希澈”搜索

按F12查看，点击切换到network选项，

可以看到下方的请求的URL：https://www.baidu.com/sugrec?prod=pc_his&from=pc_web&json=1&sid=1429_21121_18560_20692_29521_28519_29098_29567_28837_29221_22159&hisdata=%5B%7B%22time%22%3A1557844580%2C%22kw%22%3A%22%E7%AC%AC%E4%B8%89%E6%96%B9ap%E6%A3%80%E6%B5%8B%22%7D%2C%7B%22time%22%3A1557844588%2C%22kw%22%3A%22yolov3%E7%AC%AC%E4%B8%89%E6%96%B9ap%E6%A3%80%E6%B5%8B%22%7D%2C%7B%22time%22%3A1557894236%2C%22kw%22%3A%22%E4%B8%AD%E5%8D%97%E5%A4%A7%E5%AD%A6%22%7D%5D&req=2&sc=eb&csor=0&cb=jQuery1102008027458108845509_1564379803202&_=1564379803204

问号？后面的这些，全部都是GET请求的参数

这些参数以键值对（参数名=参数值）的形式实现，例如：

sid=1429_21121_18560_20692_29521_28519_29098_29567_28837_29221_22159

因此，我们使用python来写GET请求的时候，直接在URL后面加 “ ？”，然后添加参数值就好。

例如：我要在百度搜索“ 希澈”，那么就是

"https://www.baidu.com/s?wd=希澈"

POST请求

POST请求是在，我们做一些信息提交的动作时候，例如：注册，登陆...的时候发出的请求。

我打开百度，进行登录操作，点击登陆后，

请求了login接口，如下图所示，请求方法就是：POST

POST不会直接放在URL上，会以form表单的形式将数据提交给服务器。

POST请求把请求参数都放在request body里面，还对密码进行了加密，相对安全。

请求头（request head）

提交http请求时，除了提交参数之外，我们还需要定义一些请求的头部信息。

包括:Accept、Cookie、 Host、User-Agent等。

这些信息是我们欺骗服务器需要用到的参数，告诉服务器，我们发出的请求是正规请求，比如：

我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话，

User-Agent 告诉服务器我们是浏览器请求的。

服务器响应

响应码是我们向服务器发出请求后，服务器给我们返回的HTTP状态码。

常见的响应码

200：OK（成功请求）

404：找不到页面

504：Gateway Timeout

请求成功后，服务器除了响应码还会返回我们响应头，响应头的信息主要是告诉我们数据以什么形式展现。

响应体：即为服务器返回给我们的数据，点击response就能看到相关数据。

如上图所示这些是服务器返回给我们的HTML的源代码。对于不同请求我们获取的数据也不同，有HTML的也有JSON的还有二进制的等等，针对不同情况有不同的解析手段。

参考：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Karen_yuan CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

91万+: 周排名

115万+: 总排名

185: 访问

: 等级

11: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。