爬虫学习1：初学者简单了解爬虫的基本认识和操作（详细参考图片）

夜清寒风

已于 2024-08-16 14:38:52 修改

阅读量1.8k

点赞数 20

文章标签：网络爬虫 pycharm 学习开发语言 python

于 2024-07-19 21:15:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mohanyelong/article/details/140559162

版权

爬虫

定义：爬虫（Web Crawler 或 Spider）是一种自动访问互联网上网页的程序，其主要目的是索引网页内容，以便搜索引擎能够快速检索到相关信息。以下是爬虫的一些关键特性和功能：
- 自动化访问：爬虫能够自动访问网页，无需人工干预。
- 索引内容：爬虫会提取网页中的文本内容、图片、链接等信息，并将这些信息存储在数据库中。
- 遵循规则：大多数网站都有robots.txt文件，爬虫需要遵守这些规则，决定哪些页面可以访问，哪些不可以。
- 链接跟踪：爬虫会跟踪网页中的链接，从而访问到更多的网页。
- 更新机制：爬虫会定期访问已索引的网页，检查是否有更新，以保持信息的时效性。
- 分布式系统：为了处理大量的网页，爬虫系统通常是分布式的，能够在多个服务器上运行。
- 反爬虫策略：有些网站可能会采取措施防止爬虫访问，爬虫需要能够应对这些反爬虫策略。

爬虫的操作
a1、打开一个页面，点击F12

关注

20
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。