1 爬虫是什么

最新推荐文章于 2023-03-28 17:54:14 发布

爱划水的小白

最新推荐文章于 2023-03-28 17:54:14 发布

阅读量349

点赞数 2

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53094315/article/details/120603366

版权

本文介绍了网络爬虫的基本概念，强调其能模拟客户端发送请求并获取网页信息。爬虫主要用于数据采集，如社交媒体分析、招聘网站信息抓取等，同时也应用于软件测试、抢票、投票等场景。根据爬取范围和目标，爬虫可分为通用爬虫和聚焦爬虫，以及功能性爬虫和数据增量爬虫。爬虫工作流程包括获取URL、发送请求、提取数据和保存信息。

摘要由CSDN通过智能技术生成

一、爬虫的概念

网络爬虫就是模拟客户端（主要指浏览器）发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上，只要是客户端（浏览器）能做的事请，爬虫都能够做。

爬虫也只能获取客户端（浏览器）所展示出来的数据。

二、爬虫的作用

1、数据采集

a、抓取微博评论（机器学习，舆情监控）

b、抓取招聘网站的招聘信息（数据分析、挖掘）

c、新浪滚动新闻

d、百度新闻网站

2、软件测试

a、爬虫之自动化测试

b、虫师（博客）

3、12306抢票

4、网站投票（刷票）

5、网络安全

a、短信轰炸---注册页面

b、web漏洞扫描

三、爬虫的分类

1、根据被爬取网站的数量不同，可分为：

a、通用爬虫如搜索引擎

b、聚焦爬虫特定网站（2）

2、根据是否以获取数据为目的，可以分为：

a、功能性爬虫如投票、点赞

b、数据增量爬虫如招聘信息（3）

3、根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：

a、基于url地址变化、内容也随之变化的数据增量爬虫

b、url地址不变，内容变化的数据增量爬虫

四、爬虫的流程（原理）

1、获取一个url

2、向url发送请求，并获取响应（需要http协议）

3、如果从响应中提取url，则继续发送请求获取响应

4、如果从响应中提取数据，则将数据进行保存

爱划水的小白

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。