B站up信息爬取

上篇博客介绍了怎样在没有up主榜单排行情况下获取大部分up的信息。在获取了大多数up的uid后,我们开始着手爬取up的详细信息。在观察网页元素分布后,最终决定爬取的数据为签名,性别,等级,生日,头衔,投稿数,视频标签,视频分区,最多播放的视频av号。

最后一项最多播放这里,打算之后继续爬取up发布的视频信息,毕竟最后的目的是生成人物图像,我可以用up视频的信息生成一系列关于up的关键词,方便生成用户画像,以方便后续根据关键词爬取。代码如下:

def getdetail(UID):
    # 签名 性别 等级 生日 头衔  投稿数 视频标签 视频分区 最多播放的视频av号
    sign, sex, level, birthday, title, video_num, video_tag, video_sort, video_list = '', '', '', '', '', '', '', '', ''
    url = 'https://space.bilibili.com/' + str(UID) + '/'
    try:
        bro.get(url)
        bro.maximize_window()
        sleep(0.5)
        page_text = bro.page_source
        tree = etree.HTML(page_text)
        try:
            sign = clear(tree.xpath('//*[@id="app"]/div[1]/div[1]/div[2]/div[2]/div/div[2]/div[2]/h4/@title')[0])
            level = tree.xpath('//*[@id="app"]/div[1]/div[1]/div[2]/div[2]/div/div[2]/div[1]/a[1]/@lvl')[0]
        except:
            sign = '这个人很神秘,什么都没有写'
            level = 'None'
        try:
            sex = tree.xpath('//*[@id="h-gender"]/@class')[0]
            try:
                sex = sex.split(' ')[2]
                if sex == 'male':
                    sex = '男'
                if sex == 'female':
                    sex = '女'
            except:
                sex = '保密'
        except:
            sex = '无法获取'
        try:
            birthday = tree.xpath('//*[@id="page-index"]/div[2]/div[8]/div[2]/div/div/div/div[2]/span[2]')[0].text
            birthday = birthday.replace(' ', '')
            birthday = birthday.replace('\n', '')
        except:
            birthday = '保密'
        try:
            title = tree.xpath('//*[@id="page-index"]/div[2]/div[2]/div/div[1]/span/@title')[0]
        except:
            title = '无认证'
        video_num, video_tag, video_sort, video_list = get_video_info(bro)
        return sign, sex, level, birthday, title, video_num, video_tag, video_sort, video_list
    except:
        return

### 如何按分类别爬取B视频信息 为了实现按照不同类别爬取B上的视频信息,通常会涉及到几个关键技术点:发送HTTP请求、解析HTML页面结构、提取所需的数据字段以及保存数据到文件或数据库中。下面具体说明这些过程。 #### 发送HTTP请求 利用`requests`库向目标网发起GET/POST请求来获取网页源码。对于特定类别的视频列表页URL构建非常重要,因为这决定了最终能抓取哪些类型的资源。一般情况下,在B这样的平台上,可以通过修改URL参数指定要查询的内容范围,比如分区ID等[^3]。 ```python import requests url = 'https://api.bilibili.com/x/web-interface/ranking/v2?' params = { 'rid': 177, # 类别id,例如科技区为177 'type': 'all' # 排行榜类型 all表示综合排行 } response = requests.get(url=url, params=params) data_json = response.json() ``` 这段代码展示了如何设置请求头和参数以获得某个固定时间段内的某一分区内排名靠前的视频详情。其中`rid`代表不同的频道编号,而`type='all'`意味着返回该区间内最受欢迎的作品集合。 #### 解析响应内容并抽取有用的信息 一旦获得了API接口返回的结果后,则需进一步处理JSON格式的数据包,从中挑拣出感兴趣的属性值,如标题、UP昵称、播放量统计等等。这里采用字典遍历的方式读取出每条记录的关键要素: ```python for item in data_json['data']['list']: title = item['title'] author_name = item['owner']['name'] view_count = item['stat']['view'] print(f'Title:{title}, Author Name:{author_name}, View Count:{view_count}') ``` 上述片段实现了对单个作品基本信息的展示功能,当然实际应用时可根据需求调整输出项。 #### 数据存储环节 最后一步便是考虑怎样妥善保管收集来的资料了。如果只是临时测试的话可以直接打印出来;要是打算长期积累则建议存入CSV/XLSX文档里方便日后查阅分析。Pandas是一个非常适合做表格操作的强大工具,借助其DataFrame对象很容易完成这项任务。 ```python import pandas as pd video_data = [] for item in data_json['data']['list']: video_info = { 'Title': item['title'], 'AuthorName': item['owner']['name'], 'ViewCount': item['stat']['view'] } video_data.append(video_info) df = pd.DataFrame(data=video_data) df.to_excel('videos.xlsx', index=False) ``` 此部分代码创建了一个包含所有已知影片元数据的列表,并将其转换成pandas DataFrame形式再导出至Excel表单中以便后续查看[^1]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值