爬取b站最火up主及其粉丝信息

最新推荐文章于 2024-12-14 16:44:05 发布

JiaVaHao

最新推荐文章于 2024-12-14 16:44:05 发布

阅读量1.2w

点赞数 9

分类专栏：爬虫 bilibili 文章标签： python

本文链接：https://blog.csdn.net/qq_41468822/article/details/105565928

版权

爬虫同时被 2 个专栏收录

1 篇文章

订阅专栏

bilibili

1 篇文章

订阅专栏

爬取b站最火up主及其粉丝信息

编译环境：python3、Firefox Developer Edition
使用技术：bs4、json、selenium、pymysql

输出预览：

在这里插入图片描述

代码：链接: https://pan.baidu.com/s/1SSqMrMr_IVni-Tb6Yx40vQ 提取码: hnu6 使用前请修改数据库密码
配套视频教程：https://www.acfun.cn/v/ac14821412，b站不让发只能发a站

实现思路：

查看up主榜单

https://www.kanbilibili.com/rank/ups/fans

在这里插入图片描述
审查元素，可以发现up主的信息都是封装在a标签下的，a的href对应up主的空间

可以通过

a = soup.find('div', 'ups-list').find_all('a', limit=3)

查询up空间的url，limit来判断想要查询up的个数
想要进入up的空间，我们只需要将a中href用 ‘https:’ + href+’/video’ 拼接即可

查看up主空间

我们选定某个up主的空间 https://space.bilibili.com/326499679/video
在这里插入图片描述
我想要爬取这两块的内容，但是如果直接爬取，返回的数字都是0，我们需要用selenium先进行动态渲染再爬取数据

html = driver.execute_script("return document.documentElement.outerHTML")  # 必须执行js
time.sleep(2)

一定要先休眠两秒等待js运行结束，不然爬到的数据依旧是0

使用渲染库动态爬取关注数、粉丝数、获赞数等

可以看到要爬取的粉丝数、播放数等都在p标签中，我们可以通过id或者class进行爬取
在这里插入图片描述
但是获赞数与播放数id、class都是一样的，我们只能用父节点下第几个元素的形式才能获取到

focus = soup.find('p', 'n-data-v space-attention').text  # 关注数
fans = soup.find('p', 'n-data-v space-fans').text  # 粉丝数
div = soup.find('div', 'n-statistics')
praise = div.contents[2].find('p', 'n-data-v').text  # 获赞数
view = div.contents[3].find('p', 'n-data-v').text  # 播放数

接下来爬分区：
在这里插入图片描述
可以看到分区信息都是在 div 下的 a 标签中，我不需要全部的分区，所有class=“active"我不需要，只要爬取class=”"的，返回的数据是动画40，我把它拆分成动画，40的形式存入字典中

div = soup.find('div', id='submit-video-type-filter') #分区
a = div.find_all('a', attrs={'class': ''})
dict = {}
for each in a:
    lstrip = each.text.lstrip()
    dict[lstrip[0:2]] = int(lstrip[2:])
maxArea = max(zip(dict.values(), dict.keys()))

最后一句是库中方法，目的是返回数值最大的那个键，也就是投稿最多的分区

爬取up的个人信息

找到这个uri
在这里插入图片描述
里面返回的就是up主的信息

将curl转换成Python requests

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0',
        'Accept': 'application/json, text/plain, */*',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Origin': 'https://space.bilibili.com',
        'Connection': 'keep-alive',
        'Referer': 'https://space.bilibili.com/546195/fans/fans',
        'Cache-Control': 'max-age=0',
}
params = (
    ('mid', str(mid)),
    ('jsonp', 'jsonp'),
)
response = requests.get('https://api.bilibili.com/x/space/acc/info', headers=headers, params=params)

str(mid))代表up主uid，通过以下方法获取json中的数据

	json_obj = json.loads(up.text)
    up_mid = json_obj['data']['mid']
    name = json_obj['data']['name']
    sex = json_obj['data']['sex']
    sign = json_obj['data']['sign']
    level = json_obj['data']['level']
    birthday = json_obj['data']['birthday']
    title = json_obj['data']['official']['title']

爬取up主粉丝信息

该uri中返回了粉丝的json数据
在这里插入图片描述

只要构造请求头即可

	headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0',
        'Accept': '*/*',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Connection': 'keep-alive',
        'Referer': href+'/fans/fans',
    }
    params = (
        ('vmid', str(mid)),
        ('pn', str(n)),
        ('ps', '50'),
        ('order', 'desc'),
    )
    response = requests.get('https://api.bilibili.com/x/relation/followers', headers=headers, params=params)

其中pn代表分页数，ps代表一页多少人，这些都可用通过python来修改

*注：每次请求该uri时必须先休眠5s左右，否则会封ip

		json_obj = json.loads(r.text); #返回json格式
        for entry in json_obj['data']['list']:
            fans_mid = entry['mid']
            mtime = entry['mtime']
            uname = entry['uname']
            vip = entry['vip']['vipType']
            fansDetails = getUserDetails(fans_mid)
            json_obj = json.loads(fansDetails.text)
            sex = json_obj['data']['sex']
            level = json_obj['data']['level']
            print("uid：" + str(fans_mid), "关注时间："+ time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(mtime)),
                               "用户名：" + uname, "vip等级：" + viplevel(vip), "性别："+sex, "账户等级："+str(level))
            insertFans(str(up_mid),str(fans_mid), time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(mtime)),
                       uname,viplevel(vip),sex,str(level))
        time.sleep(5) # 防止封ip