英语早餐正则匹配批量下载

本文介绍了如何利用正则表达式在Python中批量下载广播节目MP4文件。通过查找分页中的日期并构造下载链接,实现智能下载。为了减轻服务器压力,建议下载一部分后暂停。
摘要由CSDN通过智能技术生成

仅供学习,下载最好下载一部分后,停止一会,防止增加广播服务器的负担。
找到广播网节目的播放页,F12,刷新,可以看到最大文件就是音频下载地址。

在这里插入图片描述

双击可以看到真实的下载地址到最后.mp4,网站提供的格式为MP4。每期节目下载地址只是变换日期部分,其它保持不变。
在这里插入图片描述
用正则搜索出分页中的节目表日期,提取每期节目的日期。拼成下载地址,批量下载。
在这里插入图片描述
因为不同时期一段时间内的下载地址有所变化,分割开日期对应的下载地址:

import time
import re
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
def parse_page(url):
	response = requests.get(url,headers=headers)
	text = response.text
	time.sleep(3)
	date = re.findall(r'<a.*?English Breakfast.*?(\d+?)</a>',text) #找出某一分页中所有节日的日期
	return date #返回节目日期列表
def main():
	pagenums = ['n'] #第一分页与其它不同,单独作为第一个元素
	endpage = int(input('how many pages ?'))  #输入共有多少页音频节目
	for i in range(2,endpage+1):
		otherpage = 'n_%d' % i #其它分页的格式
		pagenums.append(otherpage)
	for pagenum in pagenums:
		url = 'http://www.rbc.cn/audio/yingyuzaoca' + pagenum + '.shtml?parent=2972&node=3165' #拼成所有分页的URL
		adates = parse_page(url) #返回节目日期列表
		# print(adates)
		for i in adates:
			if int(i) >= 20180101 :
				audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4' #拼成所每期节目的下载地址
			elif int(i) >= 20170520 :
				audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
			elif int(i) >= 20170119 :
				audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
			elif int(i) <= 20170118 :
				audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4'
			print('正在下载'+i)
			time.sleep(5)#休息5s
			resp = requests.get(audiourl, headers=headers).content
			with open (i+".mp3","wb") as f: #将mp4格式替换成mp3,省去批量改后缀。
				f.write(resp)
				print(i + "下载完成")
if __name__ == '__main__':
	main()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在正则表达式中,我们可以使用元字符来匹配英文字符。其中,使用[a-zA-Z]可以匹配任意英文字母。[a-z]匹配小写字母,[A-Z]匹配大写字母。 如果要匹配多个连续的英文字母,可以使用[a-zA-Z]+。+表示匹配一次或多次前面的表达式。例如,正则表达式"[a-zA-Z]+"可以匹配一个或多个英文字母的字符串。 另外,还可以使用\d来匹配英文单词的首字母。例如,正则表达式"\b\w"可以匹配英文单词的首字母。 如果要匹配英文单词,可以使用正则表达式"\b[a-zA-Z]+\b"。其中,\b表示单词的边界,[a-zA-Z]+表示一个或多个英文字母。这样,我们就可以匹配一个或多个英文单词。 总结起来,正则匹配英文可以使用[a-zA-Z]来匹配单个字母,[a-zA-Z]+来匹配多个连续的英文字母,\b\w来匹配英文单词的首字母,以及\b[a-zA-Z]+\b来匹配英文单词。这些正则表达式可以在查找、替换等操作中用来匹配英文的字符串。 ### 回答2: re正则表达式在匹配英文时,可以使用英文字母的范围[a-zA-Z]来匹配大小写英文字母。具体来说,[a-z]将匹配所有小写字母,[A-Z]将匹配所有大写字母。如果需要同时匹配大小写字母,可以使用[a-zA-Z]。 此外,还可以使用其他元字符和量词来增强匹配的功能。例如,使用\d可以匹配任意数字,\w可以匹配任意字母数字字符,\s可以匹配任意空白字符。可以使用符号+表示匹配一个或多个前一项,符号*表示匹配零个或多个前一项,加号?表示匹配零个或一个前一项。 如果需要匹配特定模式的英文单词,可以使用单词边界符\b。例如,\bword\b将匹配独立的单词"word"。这样可以避免在匹配时将单词的一部分匹配到。 除了基本的正则表达式语法外,还可以使用re模块的一些函数来进行更复杂的正则匹配。例如,re.match(pattern, string)可以从字符串的开头开始匹配模式。re.search(pattern, string)可以在整个字符串中搜索匹配的模式。re.findall(pattern, string)可以找到字符串中所有匹配的模式。 总之,re正则表达式提供了一种强大的工具来匹配英文。无论是简单的字母匹配,还是对复杂模式的匹配,re都能满足需求,并且可以灵活使用其各种功能来处理不同的匹配情况。 ### 回答3: re是Python中的一个模块,可以用来进行正则表达式的匹配操作。在re中,可以使用一些特殊字符和语法来匹配英文。 首先,我们可以使用[a-zA-Z]来匹配英文字母。其中,a-z表示匹配小写字母,A-Z表示匹配大写字母。例如,r'[a-zA-Z]+'可以匹配一个或多个连续的英文字母。 此外,还可以使用\w来匹配包括数字、下划线和字母的字符。例如,r'\w+'可以匹配一个或多个连续的英文字母、数字或下划线。 如果想要匹配整个英文单词,可以使用\b来进行单词边界匹配。例如,r'\b\w+\b'可以匹配一个或多个连续的英文字母、数字或下划线,并且这个单词的边界不会与其他字符连在一起。 另外,如果要匹配英文中的字符或词组,可以使用re中的findall函数。例如,re.findall(r'[a-zA-Z]+', 'Hello World!')将会返回['Hello', 'World'],即匹配到的所有英文单词。 需要注意的是,在使用re进行英文匹配时,还需要考虑大小写敏感的情况。可以使用re.IGNORECASE或re.I参数来忽略大小写进行匹配。 总之,re提供了很多能够匹配英文的方法和语法,可以根据具体的需求选择合适的方法来进行匹配操作。以上是一些常用的方法和技巧,希望对您有所帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值