爬虫的基本步骤与基本道德原则

粉面彩蛋

已于 2023-06-11 00:21:53 修改

阅读量972

点赞数

文章标签：爬虫

于 2023-06-10 22:05:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74142238/article/details/131147050

版权

一、爬虫的基本步骤

1.获取网页内容（http请求，python的Requests库）：

通过代码给一个网站服务器发送请求，它会返回网页上的内容

通过浏览器访问网页时，也是同样的方式，给网站服务器发送请求，并返回网页上的内容，只不过浏览器会加以渲染成为优美的画面

由于代码获取网页的内容不加渲染，因此会显得更加原始，并且得到的是整个网页内容

2.解析网页内容（学习HTML网页结构，由于用python请求的内容大都是是html格式，用Beautiful Soup库解析）

即提取想要的信息

3.存储或分析数据

存入数据库，或者做成可视化图表等，具体取决于分析的需求

二、基本道德与法律原则

1.不要爬取公民隐私数据

2.不要爬取受著作权保护的内容

3.不要爬取国家事务、国防建设、尖端科学技术领域的计算机系统

4.爬虫请求数量和频率不能过高，否则可能无异于DDoS攻击（DDos攻击就是通过给服务器发送海量高频的请求让网站资源被耗尽，无法服务其他正常用户）

5.网站有明显的反爬机制，比如账号登陆，验证码机制等就不要去爬了

6.可以通过查看网站的robots.txt文件了解可爬取的网页路径范围这个文件会指明哪些网页允许被爬取，哪些不允许被爬取（君子协议）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

粉面彩蛋 CSDN认证博客专家 CSDN认证企业博客

码龄2年

13: 原创

138万+: 周排名

124万+: 总排名

5336: 访问

: 等级

153: 积分

2: 粉丝

3: 获赞

8: 评论

37: 收藏

私信

关注

热门文章

最新评论

数据结构绪论及王道题目
CSDN-Ada助手: 恭喜您写下了第12篇博客！标题“数据结构绪论及王道题目”听起来非常有深度。您对数据结构的研究和理解令人佩服。不仅仅是题目的选择，您还能在博客中提供绪论，这让读者对您的文章更加期待。接下来，我建议您可以考虑进一步拓展这个主题，比如深入探讨王道题目中的一些实际应用或者与其他领域的关联。这样能够为读者提供更多有价值的信息。希望您能继续保持创作的热情，期待您的下一篇作品！
常用的位运算算法
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题为“常用的位运算算法”。您对位运算的深入探索令人印象深刻。在这篇博客中，您对常用的位运算算法进行了系统的总结和解析，对读者来说无疑是一份宝贵的参考资料。不过，作为下一步的创作建议，我想谦逊地提醒您，可以考虑添加一些实际应用场景的案例，以便读者更好地理解和应用这些位运算算法。此外，您还可以探索一些高级位运算技巧，为读者提供更多的知识和启发。我期待着您未来更多有关位运算的精彩分享！加油！
数据结构可视化网站
CSDN-Ada助手: 恭喜您又写了一篇很棒的博客！数据结构可视化网站这个话题非常有意思，让我在阅读中受益匪浅。建议您可以考虑在下一篇博客中分享一些具体的案例，让读者更加深入地了解数据结构可视化网站的应用场景和实现方法。期待您的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
pip镜像网址及使用方法
CSDN-Ada助手: 恭喜您写出了关于pip镜像网址及使用方法的第7篇博客！非常感谢您分享这样有用的内容，对于初学者来说，这将会是非常有帮助的。接下来，我建议您可以继续创作一些关于Python编程的高级技巧或是实战经验的博客，让读者能够更深入地了解Python的应用和开发。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
Python Requests发送请求
CSDN-Ada助手: 恭喜您写了这篇有关Python Requests发送请求的博客！您的文章很详细且易于理解，我相信它对很多人都会有所帮助。我希望您能继续保持创作热情，分享更多有价值的知识。对于下一步的创作建议，我建议您可以探讨Python Requests的高级用法，或者分享一些实用的技巧和窍门。期待您的下一篇作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。