python爬虫--小白爬取哔哩哔哩每周更新栏目动画

爬取哔哩哔哩每周必看栏目动画

前言

本次内容为爬取哔哩哔哩每周必看栏目动画,灵感来自于一位博主的评论,问能否爬取B站历史排行榜信息,便决定一试,不过B站上的排行耪都是动态更新的,因此没有头绪,自我感觉不能爬取历史排行榜信息!不过看到了一个栏目倒是有历史的信息,即图中每周必看栏目,每周五定期更新,目前已更到94期,瞬间觉着是个不错的较有挑战的例子,便打算试上一试!于是乎~便有了本篇文章,详情如下

每周必看

一、爬取过程

在爬取过程中,小编开始采用之前惯用的爬取方式,发现爬取的内容不是需要的数据,每次返回的数据是各个排行榜的数据,整的挺郁闷。。。最后便采取了另外一种方式:1. 先获取页面的json数据;2. 然后对json数据进行处理;3. 最后存储到excel表中。看似没什么区别,哈哈哈,容我一一道来:

  1. 先获取页面的json数据:打开页面,点击F12—网络(network)----找到对应json数据
    在这里插入图片描述

  2. 点击消息头,复制请求的链接,复制完可以在浏览器中看一下是否是需要的数据,确定无误,爬就完了
    在这里插入图片描述在这里插入图片描述

  3. 通过requests请求获取到json数据后,根据对应的标签,取自己想到的数据就行。小编获取的是如下几个信息:
    在这里插入图片描述

  4. 重点说一下播放链接,开始在返回的数据中没找到动画链接,想着绝对不可能,这么多信息,怎么能少得了播放链接!!!于是观察了下每个动画的链接规律:
    在这里插入图片描述
    前面都是一样的,只有后面的码不同,然后在爬取的数据中找了找,果然有,然后就拼接了下,完美!

  5. 详细完整爬取代码如下:

import requests
import pandas as pd

def getUrl(url):
    #请求头
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
       }
    #解析url
    html = requests.get(url, headers=header).json()
    #返回json数据
    return html
def getData(html):
    #从json中取出需要的数据
    data = html['data']['list']
    # 转成DataFrame格式
    datadf = pd.DataFrame(data)
    # 获取标题
    title=html['data']['config']['label']
    #从data取出想要的字段以及对应数据
    weeklydf = datadf[['title', 'pic', "bvid", 'desc', 'dynamic', 'rcmd_reason']]
    # 拼接动画链接
    weeklydf['bvid'] = 'https://www.bilibili.com/video/' + weeklydf['bvid']
    return weeklydf,title
if __name__ == '__main__':
    for i in range(1,95):
        url='https://api.bilibili.com/x/web-interface/popular/series/one?number={}'.format(i)
        html=getUrl(url)
        weeklydf,title=getData(html)
        # 索引从1开始
        weeklydf.index=weeklydf.index+1
        weeklydf.to_excel('E:/output/bilibili/'+title+'.xlsx')

二、爬取结果

在这里插入图片描述在这里插入图片描述

总结

在这里插入图片描述

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值