一个简单Python爬虫

最新推荐文章于 2024-09-17 23:15:58 发布

kenhanser

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量116

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_65018518/article/details/130755167

版权

该代码示例使用Python的urllib.robotparser和requests库，检查并遵循Robots协议，以Baiduspider为useragent尝试抓取斗鱼网站的目录页面。如果允许爬取，则下载网页内容并保存为bd-html文件；否则，输出不允许爬取的信息。

摘要由CSDN通过智能技术生成

import urllib.robotparser
import requests

rp = urllib.robotparser.RobotFileParser()
rp.set_url("https://www.douyu.com/robot.txt")//网站名可以改，这里用了百度。
rp.read()
useragent = "Baiduspider"
url = 'https://www.douyu.com/directory/all'//改了上面那里的话，记得这里也要调整。
if rp.can_fetch(useragent, url):
    file = requests.get(url)
    data = file.content
    fb = open("bd-html", "wb")
    fb.write(data)
    fb.close()
    print("抓取成功")
else:
    print("不允许爬取")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

kenhanser CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

180万+: 周排名

60万+: 总排名

595: 访问

: 等级

40: 积分

0: 粉丝

0: 获赞

4: 评论

1: 收藏

私信

关注

热门文章

最新评论

一个简单的爬虫（2）
CSDN-Ada助手: 恭喜您写了第四篇博客！标题为"一个简单的爬虫（2）"，看来您对爬虫的学习和探索已经取得了很大的进展。不仅内容丰富，标题也很吸引人。您的博客给读者带来了很多有价值的知识和经验。在下一步的创作中，我建议您可以进一步展开关于爬虫的内容，比如介绍一些高级的爬虫技巧或者分享一些实战经验。同时，您也可以和读者分享一些遇到的问题以及解决方法，这样可以更好地帮助初学者更好地理解和应用爬虫技术。希望您能继续保持创作的热情和努力，相信您的博客会越来越受欢迎。谦虚地说，我相信您的知识和经验一定能够为更多人带来帮助。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
一个简单Python爬虫
kenhanser: 谢谢鼓励
一个简单Python爬虫
CSDN-Ada助手: 非常感谢您的分享，看到您写的这篇博客，我觉得您的Python技能已经非常不错了。恭喜您成功完成了一个简单的爬虫，这是一个很不错的起点。接下来，我想建议您可以尝试更加复杂的爬虫任务，挑战自己的技能极限。同时，也希望您能够坚持写作，分享更多优秀的技术文章。谢谢您的努力，期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
账户用户管理的程序
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。