[爬虫篇]Python爬虫之爬取网页音频_爬虫怎么下载已经找到的声频(1)

def download_1():
for data_id_1,data_name_1 in data_id_name_code_page_1:
audio_DATA = f"https://www.ximalaya.com/revision/play/v1/audio?id={data_id_1}&ptype=1" #---->接收data_id至url数据包
time.sleep(0.1)
print(“正在下载—>%s”%data_name_1)
audio_DATA_get = requests.get(url=audio_DATA,headers=headers)
audio_DATA_get_text = audio_DATA_get.text
audio_DATA_download_url = re.findall(‘“src”:“(.*?)”’,audio_DATA_get_text) #提取下载链接
print(audio_DATA_download_url[0])
download_data_url = audio_DATA_download_url[0]
try:
open_downloda_data_url = urllib.request.urlopen(download_data_url)
except:
print(download_data_url,“---->ERROR!”)
read_download_data_url = open_downloda_data_url.read()
def download_data():
with open(“%s.mp3”%data_name_1,“wb”) as writes:
writes.write(read_download_data_url)
download_data()
download_1()

def download_2():
for data_id_2,data_name_2 in data_id_name_code_page_2:
audio_DATA = f"https://www.ximalaya.com/revision/play/v1/audio?id={data_id_2}&ptype=1"
time.sleep(0.1)
print(“正在下载—>%s”%data_name_2)
audio_DATA_get = requests.get(url=audio_DATA,headers=headers)
audio_DATA_get_text = audio_DATA_get.text
audio_DATA_download_url = re.findall(‘“src”:“(.*?)”’,audio_DATA_get_text)
print(audio_DATA_download_url)
download_data_url = audio_DATA_download_url[0]
try:
open_download_data_url = urllib.request.urlopen(download_data_url)
except:
print(download_data_url,“---->ERROR!”)
read_download_data_url = open_download_data_url.read()
def download_data():
with open(“%s.mp3”%data_name_2,“wb”) as writes:
writes.write(read_download_data_url)
download_data()
download_2()

第四步

以上就是这段代码的主要实现,最后使用print()函数提示音频下载完成。

完整代码

import random
import time
import requests
import urllib.request
import re
book_url = “https://www.ximalaya.com/album/22088719”

user_agent = [
“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3”,
“Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0”,
“Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.3”,
“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.3”,
“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.54”
]

headers = {“User-Agent” :random.choice(user_agent)}# 采用user-agent随机反爬机制
url_get_ximalaya = requests.get(headers=headers,url=book_url)
url_get_ximalaya_webcode = url_get_ximalaya.text

def with_url_get_ximalaya_webcode():
with open(“url_get_ximalaya_webcode.txt”,“a”,encoding=“utf-8”) as w:
w.write(url_get_ximalaya_webcode)
with_url_get_ximalaya_webcode()

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数网络安全工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年网络安全全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上网络安全知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注网络安全获取)
img

给大家的福利

零基础入门

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

同时每个成长路线对应的板块都有配套的视频提供:

在这里插入图片描述

因篇幅有限,仅展示部分资料

网络安全面试题

绿盟护网行动

还有大家最喜欢的黑客技术

网络安全源码合集+工具包

所有资料共282G,朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》,可以扫描下方二维码领取(如遇扫码问题,可以在评论区留言领取哦)~

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
img

)~

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
[外链图片转存中…(img-iHQ9yHUm-1712566580624)]

  • 16
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值