python爬虫的基础知识

最新推荐文章于 2024-04-17 15:45:59 发布

m0_57462562

最新推荐文章于 2024-04-17 15:45:59 发布

阅读量605

点赞数

文章标签： python 爬虫 http

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57462562/article/details/122612062

版权

1）爬虫在使用场景中的分类

1.通用爬虫

抓取的系统的重要组成部分，抓取的是一整张页面数据

2.聚焦爬虫

是建立在通用爬虫之上的，抓取的是页面特定中特定的局部内容

3.增量式爬虫

检测网站中的数据更新的情况，只会抓取网页中最新更新出来的数据

2）反爬机制

制定策略或技术手段，防止爬虫程序进行网站数据的爬取

3）反反爬策略

破解反爬机制，从而获取信息。

4）robots.txt协议

君子协议，规定了网站上哪些数据可以被爬虫，哪些不可以。

查看：网址后加/robots.txt

5）http协议

-概念：服务器与客户端进行数据交互的一种形式

-常用请求头信息：

--User-Agent:请求载体的身份标识

--Conne

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
python爬虫的基础知识

1）爬虫在使用场景中的分类1.通用爬虫抓取的系统的重要组成部分，抓取的是一整张页面数据2.聚焦爬虫是建立在通用爬虫之上的，抓取的是页面特定中特定的局部内容3.增量式爬虫检测网站中的数据更新的情况，只会抓取网页中最新更新出来的数据2）反爬机制制定策略或技术手段，防止爬虫程序进行网站数据的爬取3）反反爬策略破解反爬机制，从而获取信息。4）robots.txt协议君子协议，规定了网站上哪些数据可以被爬虫，哪些不可以。查看：网址后加/robots.txt5）h
复制链接

扫一扫

m0_57462562 CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

127万+: 周排名

114万+: 总排名

4777: 访问

: 等级

21: 积分

0: 粉丝

0: 获赞

1: 评论

4: 收藏

私信

关注

热门文章

最新评论

python爬虫的基础知识
CSDN-Ada助手: 非常感谢您分享关于python爬虫的基础知识的博客！我觉得您可以考虑写一篇关于爬虫数据处理与分析的博客，介绍如何使用pandas等工具对爬取的数据进行处理和分析，让读者更好地了解如何利用爬虫实现数据挖掘和分析，相信这样的技术文章对其他用户也会非常有帮助。期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

1.1统计学的发展史

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。