从零开始学scrapy爬虫--爬斗鱼(一)

获取斗鱼的api地址,找到一个斗鱼的第三方api文档

  • 创建爬虫项目
cd /d D:\workspaces\python\scrapy
python3 -m scrapy startproject douyu
cd douyu
python3 -m scrapy genspider douyutv douyu.com
  • 编写爬虫脚本
D:\workspaces\python\scrapy\douyu\douyu\spiders\douyutv.py
# -*- coding: utf-8 -*-
import scrapy
import json

class DouyutvSpider(scrapy.Spider):
    name = 'douyutv'
    allowed_domains = ['douyucdn.cn']
    baseURL = 'http://open.douyucdn.cn/api/RoomApi/live?limit=30&offset='
    offset = 0
    start_urls = [baseURL + str(offset)]
    def parse(self, response):
        data_list = json.loads(response.body.decode('utf-8'))['data']
        if not len(data_list):
            return
        for data in data_list:
            room_id = data['room_id']
            owner_uid = data['owner_uid']
            nickname = data['nickname']
            print(room_id,owner_uid,nickname)
        self.offset += 20
        yield scrapy.Request(self.baseURL + str(self.offset), callback=self.parse)
  • 执行爬虫脚本测试
python3 -m scrapy crawl douyutv

这里写图片描述

可以看到爬虫运行成功了,但是悲剧的是由于被斗鱼检查到了,IP被禁了
这里写图片描述

看来我要研究一下反反爬虫技术了。qvq

参考文献

『Scrapy』爬取斗鱼主播头像

说明
如需获取斗鱼第三方api文档和项目源码可通过我的微信公众号获取。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值