Python3爬虫篇之爬虫初识

最新推荐文章于 2024-09-27 22:51:18 发布

爱喝水的qdy

最新推荐文章于 2024-09-27 22:51:18 发布

阅读量216

点赞数

分类专栏： Python3 文章标签： python3 爬虫简介

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32617703/article/details/103314279

版权

Python3 专栏收录该内容

114 篇文章 2 订阅

订阅专栏

目录

爬虫简介
爬虫用途
爬虫本质
爬虫的合法性
爬虫的风险
如何避免进局子
爬虫的分类
反爬机制
- 常见的反爬机制
反反爬策略
robots.txt协议
http协议
https协议
常用请求头信息
常用响应头信息
加密方式

爬虫简介

百度百科：
网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通俗讲：
通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

爬虫用途

你是否在夜深人静的时候，想看一些会让你更睡不着的图片却苦于没有资源…
你是否在节假日出行高峰的时候，想快速抢购火车票成功…
你是否在网上购物的时候，想快速且精准的定位到口碑质量最好的商品…
…

爬虫本质

模拟浏览器打开网页，获取网页中我们想要的那部分数据

浏览器打开网页的过程：

－在浏览器中输入地址，
－通过DNS服务器找到服务器主机
－向服务器发送一个请求
－服务器经过解析后发送给用户浏览器结果，包括html,js,css等文件内容
－浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的，我们爬虫就是为了获取这些内容，通过分析和过滤html代码，从中获取我们想要资源（文本，图片，视频…）

爬虫的合法性

在法律中是不被禁止
具有违法风险
善意爬虫 or 恶意爬虫

爬虫的风险

爬虫带来的风险可以体现在如下2方面：

爬虫干扰了被访问网站的正常运营
爬虫抓取了收到法律保护的特定类型的数据或信息

如何避免进局子

如何在使用编写爬虫的过程中避免进入局子的厄运呢？

时常的优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私
商业机密等敏感内容需要及时停止爬取或传播

爬虫的分类

爬虫在使用场景中的分类

通用爬虫：
抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫：
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
增量式爬虫：
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

反爬机制

门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

常见的反爬机制

robots.txt
检测UA
检测IP
动态加载网页内容
验证码
数据加密
token

反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

robots.txt协议

君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。
https://blog.csdn.net/qq_32617703/article/details/103313139

http协议

概念：就是服务器和客户端进行数据交互的一种形式。

https协议

安全的超文本传输协议

常用请求头信息

User-Agent：请求载体的身份标识
Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息

Content-Type：服务器响应回客户端的数据类型

加密方式

对称秘钥加密
非对称秘钥加密
证书秘钥加密

爱喝水的qdy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。