爬虫的概念和基本流程基本了解（一）

最新推荐文章于 2024-07-20 19:15:06 发布

王涛涛.

最新推荐文章于 2024-07-20 19:15:06 发布

阅读量1k

点赞数 1

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangtaotao_/article/details/105475668

版权

爬虫的概念

网络爬虫（又称网页蜘蛛，网络机器人）就是模拟客户端(主要是指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动的抓取互联网信息的程序。

原则上，只要是客户端(浏览器)能做的事，爬虫都能做
爬虫也只能获取客户端(浏览器)所展示出来的数据

爬虫的作用

数据采集
- 抓取微博评论(机器学习舆情监控)
- 抓取招聘网站的招聘信息(数据分析、挖掘)
- 新浪滚动新闻
- 百度新闻网站
软件测试
- 爬虫之自动化测试
- 虫师
12306抢票
网站上的投票
- 投票网
网络安全
- 短信轰炸
  - 注册页面1
  - 注册页面2
  - 注册页面3
- web漏洞扫描

爬虫的分类

根据被爬取网站的数量不同，可以分为：

通用爬虫，如搜索引擎
聚焦爬虫，如12306抢票

根据是否以获取数据为目的，可以分为：

功能性爬虫，给你喜欢的人投票、点赞
数据增量爬虫，比如招聘信息

根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：

基于url地址变化，内容也随之变化的数据增量爬虫
url地址不变，内容变化的数据增量爬虫

爬虫分类

通用爬虫
聚焦爬虫
- 功能性爬虫
- 数据增量爬虫
  - url和数据同时变化
  - url不变，数据变化

爬虫的流程

在这里插入图片描述

1.获取一个url
2.向url发送请求，并获取响应（需要http协议）
3.如果从响应中提取url，则继续发送请求获取响应
4.如果从响应中提取数据，则将数据进行保存

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。