Python---爬取斗鱼小姐姐数据--你想怎么样

本期用到json,requests库来爬取网页信息,这次爬的是一个特殊多页式网站,普通多页式网站只需分析不同页面的url,找出其中的不同点,用for in来循环即可,但是斗鱼的https://www.douyu.com/directory/game/LOL中不同页面都是相同的url,这就需要去“F12”来寻找其中的区别。
工具.环境:Python3.6.5,Pycharm,windows10,Firefox

image


1.首先来寻找不同页面的区别

以斗鱼的LOL板块为例:https://www.douyu.com/directory/game/LOL
尝试切换不同页面都是相同的url,那怎么办呢??????????
按F12呼出开发者工具(在这推荐使用Firefox或chrome浏览器,我用的是Firefox)

image

要详细学习开发者工具的请自行百度,这里直接选择网络,会看到很多数据,数据发送方法分两种,为“post”and“get”。再选择XHR,点击左上角的删除键,再重新载入网页,就会看到电脑又向服务器发送了多个请求。

image

再重复多换几个页面,发现每次换的页码都与其中一个请求名相同

image

点击该条信息,在右边显示该条信息的消息头,有一个请求网址https://www.douyu.com/gapi/rkc/directory/2_1/3,把它复制下来,发现末尾的3就是对应的页数。 OK 第一步结束!


2.get页面信息

打开1中get到的网址https://www.douyu.com/gapi/rkc/directory/2_1/3

image

发现里面有我想要爬取的斗鱼房间信息,那么就是它了,接下来要对它进行解剖。

(1)运用requests来get该网页的信息
import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    print(res.text)   # 可以想先看看get到的是个什么东西

这里运用for in循环来get到1-5页的网页信息for page in range(1, 5),具体见上面代码

(2)运用json库来将已编码的 JSON 字符串解码为 Python 对象
import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    j = json.loads(res.text)
    print(j)  # 可以看到已解码的对象

json.dumps:将 Python 对象编码成 JSON 字符串
json.loads:将已编码的 JSON 字符串解码为 Python 对象


3.处理对象数据

image

看到了一堆糊糊,这时Firefox的优势就体现出来了

image

可以看到各层的所属关系,便于接下来的提取数据,下面是完整代码:

import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    j = json.loads(res.text)
    l1 = j['data']     # 通过观察可以发现要的数据在data下
    l2 = l1['rl']     #在观察发现在data的rl中
    tplt = '{0:{4}<20}\t{1:<12}\t{2:{4}<25}\t{3:<12}'
    print(tplt.format('主播', '房间号', '房间名', '热度', chr(12288)))

    for i in range(len(l2)):   # 这里用到for循环来处理一个列表下多个字典的数据
        Anchor = l2[i]['nn']              # 获取主播名字
        RoomNumber = l2[i]['rid']         # 获取房间号
        Heat = l2[i]['ol']                # 获取热度
        RoomName = l2[i]['rn']            # 获取房间名
        print(tplt.format(Anchor, RoomNumber, RoomName, Heat, chr(12288)))

4.结果

运行程序

image

现在还有大礼包免费赠送
推荐一下我建的python学习交流扣扣qun:850973621,群里有免费的视频教程,开发工具、
电子书籍、项目源码分享。学习python web、python爬虫、数据分析、大数据,人工智能等
技术有不懂的可以加入一起交流学习,一起进步!

作者:Wayne_Dream
链接:https://www.jianshu.com/p/56fde61c00bf
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值