Python爬取知乎上搞笑视频，一顿爆笑送给大家

2401_83703999

于 2024-04-21 12:57:43 发布

阅读量820

点赞数 21

分类专栏：程序员文章标签： python 开发语言

本文链接：https://blog.csdn.net/2401_83703999/article/details/138030904

版权

程序员专栏收录该内容

454 篇文章 1 订阅

订阅专栏

最近小编经常刷知乎上的一个问题“你见过哪些是「以为是个王者，结果是个青铜」的视频或图片？”。从这个问题我们就已经可以看出来里面的幽默成分了，点进去看果然是笑到停不下来。于是，我想一个个点进去看，还不如把这些视频都下载下来，享受一顿爆笑。

获取url

我们使用Google浏览器的“开发者工具”获取网页的url，然后用requests.get函数获得json文件，再使用json.loads函数转换成Python对象：

url = “https://www.zhihu.com/api/v4/questions/312311412/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_labeled%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%2A%5D.topics&limit=20&offset=”+str(i*20)+“&platform=desktop&sort_by=default”

r = requests.get(url,headers = kv)

dicurl = json.loads(r.text)

在这里插入图片描述

获取content

我们使用谷歌浏览器的一个开发者工具JSONview，可以看到打开的url中有一个content，这里面就是我们要找的回答内容，视频url也在里面。将返回的json转化成python对象后，获取其中content里面的内容。也就是说，我们获得了每一个回答的内容，包括了视频的地址。

for k in range(20):#每条dicurl里可以解析出20条content数据

name = dicurl[“data”][k][“author”][“name”]

ID = dicurl[“data”][k][“id”]

question = dicurl[“data”][k][“question”][“title”]

content = dicurl[“data”][k][“content”]

data_lens = re.findall(r’data-lens-id=“(.*?)”',content)

在这里插入图片描述

获得视频地址

打开获取的content，找到href后面的url，打开看一下打开后视频正是我们要的内容，但是发现url不是我们获取的真实地址。仔细观察后发现，这个url发生了跳转。想要知道如何跳转来的，我们再次F12，打开开发者工具，发现请求了一个新的URL。观察发现，其实后面一串数字就是之前的data-lens-id。

在这里插入图片描述