从零开始学scrapy爬虫--爬斗鱼（一）

最新推荐文章于 2021-04-26 18:41:44 发布

愤怒的红裤衩

最新推荐文章于 2021-04-26 18:41:44 发布

阅读量1.1k

点赞数

分类专栏：爬虫 python 从零开始学scrapy爬虫文章标签： python 爬虫 scrapy 斗鱼

本文链接：https://blog.csdn.net/weixin_38011359/article/details/80503964

版权

爬虫同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

python

3 篇文章 0 订阅

订阅专栏

从零开始学scrapy爬虫

3 篇文章 1 订阅

订阅专栏

获取斗鱼的api地址，找到一个斗鱼的第三方api文档

创建爬虫项目

cd /d D:\workspaces\python\scrapy
python3 -m scrapy startproject douyu
cd douyu
python3 -m scrapy genspider douyutv douyu.com

编写爬虫脚本

D:\workspaces\python\scrapy\douyu\douyu\spiders\douyutv.py

# -*- coding: utf-8 -*-
import scrapy
import json

class DouyutvSpider(scrapy.Spider):
    name = 'douyutv'
    allowed_domains = ['douyucdn.cn']
    baseURL = 'http://open.douyucdn.cn/api/RoomApi/live?limit=30&offset='
    offset = 0
    start_urls = [baseURL + str(offset)]
    def parse(self, response):
        data_list = json.loads(response.body.decode('utf-8'))['data']
        if not len(data_list):
            return
        for data in data_list:
            room_id = data['room_id']
            owner_uid = data['owner_uid']
            nickname = data['nickname']
            print(room_id,owner_uid,nickname)
        self.offset += 20
        yield scrapy.Request(self.baseURL + str(self.offset), callback=self.parse)

执行爬虫脚本测试

python3 -m scrapy crawl douyutv

这里写图片描述

可以看到爬虫运行成功了，但是悲剧的是由于被斗鱼检查到了，IP被禁了
这里写图片描述

看来我要研究一下反反爬虫技术了。qvq

参考文献

『Scrapy』爬取斗鱼主播头像

说明
如需获取斗鱼第三方api文档和项目源码可通过我的微信公众号获取。

愤怒的红裤衩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
从零开始学scrapy爬虫--爬斗鱼（一）

获取斗鱼的api地址 http://open.douyucdn.cn/api/RoomApi/live创建爬虫项目cd /d D:\workspaces\python\scrapypython3 -m scrapy startproject douyucd douyupython3 -m scrapy genspider douyutv douyu.com编写爬虫...
复制链接

扫一扫