python爬取B站番剧链接

本文介绍了如何使用Python爬取B站番剧链接。由于B站页面内容由动态JS加载,需通过分析API接口获取数据。通过F12开发者工具找到相关JS文件,发现'result'字段包含所需信息。利用request库获取JSON数据,转化为字典结构,提取'media_bangumi'键值,获取番剧链接中的media_id,进一步提取相关链接。
摘要由CSDN通过智能技术生成

目标:爬取B站数据,从而获取指定番剧的更新信息

问题:在搜索界面查看网页源码时发现网页不是由静态H5构成,不直接包含所需要的信息,如下:
这里写图片描述

解决办法:

百度之后发现B站网页由动态JS加载,所以不能直接通过源码获取,需要通过F12工具获取页面的API接口,参考文章:https://blog.csdn.net/qq_33344121/article/details/78514861

主要核心步骤:

  1. 在搜索界面打开F12工具,F5刷新界面,找到如下js文件:
    这里写图片描述
  2. 在preview页面能够看到result字段包括了要找的信息:
    这里写图片描述
  3. 结合文章中的教程,可以通过以下函数获取json对象并存为字典
it
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值