[爬虫篇]Python爬虫之爬取网页音频_爬虫怎么下载已经找到的声频(1)

最新推荐文章于 2024-07-15 10:36:04 发布

编程彪炳

最新推荐文章于 2024-07-15 10:36:04 发布

阅读量1.2k

点赞数 16

分类专栏： 2024年程序员学习文章标签： python 爬虫音视频

本文链接：https://blog.csdn.net/m0_60635224/article/details/137515654

版权

2024年程序员学习专栏收录该内容

265 篇文章 0 订阅

订阅专栏

def download_1():
for data_id_1,data_name_1 in data_id_name_code_page_1:
audio_DATA = f"https://www.ximalaya.com/revision/play/v1/audio?id={data_id_1}&ptype=1" #---->接收data_id至url数据包
time.sleep(0.1)
print(“正在下载—>%s”%data_name_1)
audio_DATA_get = requests.get(url=audio_DATA,headers=headers)
audio_DATA_get_text = audio_DATA_get.text
audio_DATA_download_url = re.findall(‘“src”:“(.*?)”’,audio_DATA_get_text) #提取下载链接
print(audio_DATA_download_url[0])
download_data_url = audio_DATA_download_url[0]
try:
open_downloda_data_url = urllib.request.urlopen(download_data_url)
except:
print(download_data_url,“---->ERROR！”)
read_download_data_url = open_downloda_data_url.read()
def download_data():
with open(“%s.mp3”%data_name_1,“wb”) as writes:
writes.write(read_download_data_url)
download_data()
download_1()

def download_2():
for data_id_2,data_name_2 in data_id_name_code_page_2:
audio_DATA = f"https://www.ximalaya.com/revision/play/v1/audio?id={data_id_2}&ptype=1"
time.sleep(0.1)
print(“正在下载—>%s”%data_name_2)
audio_DATA_get = requests.get(url=audio_DATA,headers=headers)
audio_DATA_get_text = audio_DATA_get.text
audio_DATA_download_url = re.findall(‘“src”:“(.*?)”’,audio_DATA_get_text)
print(audio_DATA_download_url)
download_data_url = audio_DATA_download_url[0]
try:
open_download_data_url = urllib.request.urlopen(download_data_url)
except:
print(download_data_url,“---->ERROR！”)
read_download_data_url = open_download_data_url.read()
def download_data():
with open(“%s.mp3”%data_name_2,“wb”) as writes:
writes.write(read_download_data_url)
download_data()
download_2()

第四步

以上就是这段代码的主要实现，最后使用print()函数提示音频下载完成。

完整代码

import random
import time
import requests
import urllib.request
import re
book_url = “https://www.ximalaya.com/album/22088719”

user_agent = [
“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”,
“Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0”,
“Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.3”,
“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.3”,
“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.54”
]

headers = {“User-Agent” :random.choice(user_agent)}# 采用user-agent随机反爬机制
url_get_ximalaya = requests.get(headers=headers,url=book_url)
url_get_ximalaya_webcode = url_get_ximalaya.text

def with_url_get_ximalaya_webcode():
with open(“url_get_ximalaya_webcode.txt”,“a”,encoding=“utf-8”) as w:
w.write(url_get_ximalaya_webcode)
with_url_get_ximalaya_webcode()

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数网络安全工程师，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年网络安全全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上网络安全知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注网络安全获取）

给大家的福利

零基础入门

对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。

同时每个成长路线对应的板块都有配套的视频提供：

在这里插入图片描述

因篇幅有限，仅展示部分资料

网络安全面试题

绿盟护网行动

还有大家最喜欢的黑客技术

网络安全源码合集+工具包

所有资料共282G，朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》，可以扫描下方二维码领取（如遇扫码问题，可以在评论区留言领取哦）~

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

）~

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
[外链图片转存中…(img-iHQ9yHUm-1712566580624)]

编程彪炳

关注

16
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
[爬虫篇]Python爬虫之爬取网页音频_爬虫怎么下载已经找到的声频(1)

id={data_id_1}&ptype=1" #---->接收data_id至url数据包print(“正在下载—>%s”%data_name_1))”’,audio_DATA_get_text) #提取下载链接try:except:”)print(“正在下载—>%s”%data_name_2)try:except:”)
复制链接

扫一扫

专栏目录