B站up信息爬取

最新推荐文章于 2024-02-29 18:05:05 发布

Joker Han

最新推荐文章于 2024-02-29 18:05:05 发布

阅读量1.8k

点赞数 1

分类专栏：项目实训记录文章标签： python

本文链接：https://blog.csdn.net/qq_43808522/article/details/118667406

版权

项目实训记录专栏收录该内容

5 篇文章

订阅专栏

上篇博客介绍了怎样在没有up主榜单排行情况下获取大部分up的信息。在获取了大多数up的uid后，我们开始着手爬取up的详细信息。在观察网页元素分布后，最终决定爬取的数据为签名，性别，等级，生日，头衔，投稿数，视频标签，视频分区，最多播放的视频av号。

最后一项最多播放这里，打算之后继续爬取up发布的视频信息，毕竟最后的目的是生成人物图像，我可以用up视频的信息生成一系列关于up的关键词，方便生成用户画像，以方便后续根据关键词爬取。代码如下：

def getdetail(UID):
    # 签名 性别 等级 生日 头衔  投稿数 视频标签 视频分区 最多播放的视频av号
    sign, sex, level, birthday, title, video_num, video_tag, video_sort, video_list = '', '', '', '', '', '', '', '', ''
    url = 'https://space.bilibili.com/' + str(UID) + '/'
    try:
        bro.get(url)
        bro.maximize_window()
        sleep(0.5)
        page_text = bro.page_source
        tree = etree.HTML(page_text)
        try:
            sign = clear(tree.xpath('//*[@id="app"]/div[1]/div[1]/div[2]/div[2]/div/div[2]/div[2]/h4/@title')[0])
            level = tree.xpath('//*[@id="app"]/div[1]/div[1]/div[2]/div[2]/div/div[2]/div[1]/a[1]/@lvl')[0]
        except:
            sign = '这个人很神秘，什么都没有写'
            level = 'None'
        try:
            sex = tree.xpath('//*[@id="h-gender"]/@class')[0]
            try:
                sex = sex.split(' ')[2]
                if sex == 'male':
                    sex = '男'
                if sex == 'female':
                    sex = '女'
            except:
                sex = '保密'
        except:
            sex = '无法获取'
        try:
            birthday = tree.xpath('//*[@id="page-index"]/div[2]/div[8]/div[2]/div/div/div/div[2]/span[2]')[0].text
            birthday = birthday.replace(' ', '')
            birthday = birthday.replace('\n', '')
        except:
            birthday = '保密'
        try:
            title = tree.xpath('//*[@id="page-index"]/div[2]/div[2]/div/div[1]/span/@title')[0]
        except:
            title = '无认证'
        video_num, video_tag, video_sort, video_list = get_video_info(bro)
        return sign, sex, level, birthday, title, video_num, video_tag, video_sort, video_list
    except:
        return