上篇博客介绍了怎样在没有up主榜单排行情况下获取大部分up的信息。在获取了大多数up的uid后,我们开始着手爬取up的详细信息。在观察网页元素分布后,最终决定爬取的数据为签名,性别,等级,生日,头衔,投稿数,视频标签,视频分区,最多播放的视频av号。
最后一项最多播放这里,打算之后继续爬取up发布的视频信息,毕竟最后的目的是生成人物图像,我可以用up视频的信息生成一系列关于up的关键词,方便生成用户画像,以方便后续根据关键词爬取。代码如下:
def getdetail(UID):
# 签名 性别 等级 生日 头衔 投稿数 视频标签 视频分区 最多播放的视频av号
sign, sex, level, birthday, title, video_num, video_tag, video_sort, video_list = '', '', '', '', '', '', '', '', ''
url = 'https://space.bilibili.com/' + str(UID) + '/'
try:
bro.get(url)
bro.maximize_window()
sleep(0.5)
page_text = bro.page_source
tree = etree.HTML(page_text)
try:
sign = clear(tree.xpath('//*[@id="app"]/div[1]/div[1]/div[2]/div[2]/div/div[2]/div[2]/h4/@title')[0])
level = tree.xpath('//*[@id="app"]/div[1]/div[1]/div[2]/div[2]/div/div[2]/div[1]/a[1]/@lvl')[0]
except:
sign = '这个人很神秘,什么都没有写'
level = 'None'
try:
sex = tree.xpath('//*[@id="h-gender"]/@class')[0]
try:
sex = sex.split(' ')[2]
if sex == 'male':
sex = '男'
if sex == 'female':
sex = '女'
except:
sex = '保密'
except:
sex = '无法获取'
try:
birthday = tree.xpath('//*[@id="page-index"]/div[2]/div[8]/div[2]/div/div/div/div[2]/span[2]')[0].text
birthday = birthday.replace(' ', '')
birthday = birthday.replace('\n', '')
except:
birthday = '保密'
try:
title = tree.xpath('//*[@id="page-index"]/div[2]/div[2]/div/div[1]/span/@title')[0]
except:
title = '无认证'
video_num, video_tag, video_sort, video_list = get_video_info(bro)
return sign, sex, level, birthday, title, video_num, video_tag, video_sort, video_list
except:
return