英语早餐正则匹配批量下载

最新推荐文章于 2024-08-15 01:55:01 发布

置顶哈斯卡:no pain no gain

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量123

点赞数

文章标签：正则表达式 python

本文链接：https://blog.csdn.net/sfwwdd/article/details/108464717

版权

本文介绍了如何利用正则表达式在Python中批量下载广播节目MP4文件。通过查找分页中的日期并构造下载链接，实现智能下载。为了减轻服务器压力，建议下载一部分后暂停。

摘要由CSDN通过智能技术生成

仅供学习，下载最好下载一部分后，停止一会，防止增加广播服务器的负担。
找到广播网节目的播放页,F12,刷新,可以看到最大文件就是音频下载地址。

在这里插入图片描述

双击可以看到真实的下载地址到最后.mp4，网站提供的格式为MP4。每期节目下载地址只是变换日期部分，其它保持不变。
在这里插入图片描述
用正则搜索出分页中的节目表日期，提取每期节目的日期。拼成下载地址，批量下载。

因为不同时期一段时间内的下载地址有所变化，分割开日期对应的下载地址：

import time
import re
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
def parse_page(url):
	response = requests.get(url,headers=headers)
	text = response.text
	time.sleep(3)
	date = re.findall(r'<a.*?English Breakfast.*?(\d+?)</a>',text) #找出某一分页中所有节日的日期
	return date #返回节目日期列表
def main():
	pagenums = ['n'] #第一分页与其它不同,单独作为第一个元素
	endpage = int(input('how many pages ?'))  #输入共有多少页音频节目
	for i in range(2,endpage+1):
		otherpage = 'n_%d' % i #其它分页的格式
		pagenums.append(otherpage)
	for pagenum in pagenums:
		url = 'http://www.rbc.cn/audio/yingyuzaoca' + pagenum + '.shtml?parent=2972&node=3165' #拼成所有分页的URL
		adates = parse_page(url) #返回节目日期列表
		# print(adates)
		for i in adates:
			if int(i) >= 20180101 :
				audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4' #拼成所每期节目的下载地址
			elif int(i) >= 20170520 :
				audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
			elif int(i) >= 20170119 :
				audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
			elif int(i) <= 20170118 :
				audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4'
			print('正在下载'+i)
			time.sleep(5)#休息5s
			resp = requests.get(audiourl, headers=headers).content
			with open (i+".mp3","wb") as f: #将mp4格式替换成mp3,省去批量改后缀。
				f.write(resp)
				print(i + "下载完成")
if __name__ == '__main__':
	main()

哈斯卡:no pain no gain

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
英语早餐正则匹配批量下载

仅供学习，下载最好下载一部分后，停止一会，防止增加广播服务器的负担。找到广播网节目的播放页,F12,刷新,可以看到最大文件就是音频下载地址。双击可以看到真实的下载地址到最后.mp4，网站提供的格式为MP4。每期节目下载地址只是变换日期部分，其它保持不变。用正则搜索出分页中的节目表日期，提取每期节目的日期。拼成下载地址，批量下载。import timeimport reimport requestsheaders = {'User-Agent':'Mozilla/5.0 (Windows
复制链接

扫一扫