import urllib.robotparser import requests rp = urllib.robotparser.RobotFileParser() rp.set_url("https://www.douyu.com/robot.txt")//网站名可以改,这里用了百度。 rp.read() useragent = "Baiduspider" url = 'https://www.douyu.com/directory/all'//改了上面那里的话,记得这里也要调整。 if rp.can_fetch(useragent, url): file = requests.get(url) data = file.content fb = open("bd-html", "wb") fb.write(data) fb.close() print("抓取成功") else: print("不允许爬取")
一个简单Python爬虫
最新推荐文章于 2024-09-17 23:15:58 发布
该代码示例使用Python的urllib.robotparser和requests库,检查并遵循Robots协议,以Baiduspider为useragent尝试抓取斗鱼网站的目录页面。如果允许爬取,则下载网页内容并保存为bd-html文件;否则,输出不允许爬取的信息。
摘要由CSDN通过智能技术生成