Python 爬虫基础

最新推荐文章于 2024-07-21 22:27:18 发布

~羽~.

最新推荐文章于 2024-07-21 22:27:18 发布

阅读量62

点赞数

分类专栏： Python 爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42702981/article/details/116568284

版权

Python 爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python 爬虫基础

1、网络爬虫的概念：（概念性的东西总是要知道的）

网络爬虫又被称为网页蜘蛛，网络机器人）就是模拟客户端（主要指浏览器）发送网络请求，接收请求响应，一种按照一定规则，自动抓取互联网信息的程序。‘

原则上，只要客户端浏览器所能做的事情，爬虫都能做
爬虫也只能获取客户端（浏览器）所展示的数据

说人话：模拟浏览器，发送请求，获取响应。

2、爬虫的作用：

数据采集：微博评论，信息收集，疫情信息收集，招聘网站信息收集，新闻信息，川普拉选票
软件测试：爬虫之自动化测试
1230抢票：
网站投票：
网络安全：短信轰炸——注册页面，web漏洞扫描

3、爬虫的分类：

全网爬虫：用于抓取整个互联网的数据，主要就是搜索引擎这样的
站内爬虫：与全网爬虫类似，只是用于抓取站内的网络资源。主要是一些企业内部的搜索引擎。
定向爬虫：应用广泛，这种爬虫只关注特定的数据。

分类方法还有很多，就不一一列举了。

爬虫流程：

获取一个URL
向URL发送请求，并获取响应（需要HTTP协议）
如果从响应中提取URL，则继续发送请求获取响应
如果从响应中提取数据，则将数据进行保存

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫基础

Python 爬虫基础1、网络爬虫的概念：（概念性的东西总是要知道的）网络爬虫又被称为网页蜘蛛，网络机器人）就是模拟客户端（主要指浏览器）发送网络请求，接收请求响应，一种按照一定规则，自动抓取互联网信息的程序。‘原则上，只要客户端浏览器所能做的事情，爬虫都能做爬虫也只能获取客户端（浏览器）所展示的数据说人话：模拟浏览器，发送请求，获取响应。2、爬虫的作用：数据采集：微博评论，信息收集，疫情信息收集，招聘网站信息收集，新闻信息，川普拉选票软件测试：爬虫之自动化测试1230抢票：网站
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。