最近在研究Python的批量下载功能,以前的做法是读取txt文本中的单词列表,然后拼接网址,利用wget下载下来。这种方法固然不错,但是我们通常是把单词放在了Excel里面,那么如何实现读取Excel下载单词或者短语呢?首先,我们利用pandas的数据框转字典的方法,即df.to_dict()把读取的单词或者短语都放到列表里面。然后,以Post的方法,向固定的网址放送数据,为了防止被封IP还要加上headers,这样就可以轻松实现把单词和短语的音频下载到本地了。
第一步:导入os, requests等包,同时设定headers.
import os
import requests
from pyquery import PyQuery as pq
import pandas as pd
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}
第二步:定义函数get_wordlist(),获取Excel中的单词或者短语,存入到列表当中。
def get_wordlist():
"""
获取词表
"""
ls=[]
df = pd.read_excel(r"../ppt素材/words.xlsx") #读取Excel生成数据框df
data = df.to_dict('records')
for x in data:
ls.append(x["单词"])
return ls
第三步:向在线字典发送数据,以Post的方法获取网页数据,以二进制的方法读取并写入本地,并以单词或者短语的名称来命名。
def look_up_words(wordlist):
"""
爬取有道词典上的单词音标、词义、发音mp3
"""
for text in wordlist: #遍历单词列表中的每个单词
target_name=os.path.join(r"..\sounds",text+".mp3") #读取当前目录下sounds文件夹里的mp3
if os.path.exists(target_name):
pass
else:
try:
data = {"audio":text, "lang": "zh","type":2} #向有道批量发请求,得到单词、短语的发音
resp = requests.post("https://dict.youdao.com/dictvoice", data=data,headers=headers) #发起数据请求
with open(target_name,"wb") as f:#获取请求结果并写入本地
f.write(resp.content)
if resp.status_code != 200:#如果无法获取到keyword标签,证明单词没有查到,提醒单词不存在。
print(f"{text}单词不存在!")
with open("..\missingwords.txt","a+",encoding="utf-8") as f:
f.write(text+"\n")
except Exception as exc:
print(exc)
第四步:定义一个主函数,即程序的入口。
def main():
try:
wordlist=get_wordlist() #获取词表
look_up_words(wordlist) #发起数据请求,获得音频的二进制数据,并写入到本地
except Exception as exc: #如果无法获得数据就打印出错误,并继续进行下一个。
print(exc)
这里放出完整的程序代码:
# -*- coding: utf-8 -*-
# @Time : 2022/07/19 22:00
# @Author : Gordon
import os
import requests
from pyquery import PyQuery as pq
import pandas as pd
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}
def main():
try:
wordlist=get_wordlist()
look_up_words(wordlist)
except Exception as exc:
print(exc)
def get_wordlist():
"""
获取词表
"""
ls=[]
df = pd.read_excel(r"../ppt素材/words.xlsx")
data = df.to_dict('records')
for x in data:
ls.append(x["单词"])
return ls
def look_up_words(wordlist):
"""
爬取有道词典上的单词音标、词义、发音mp3
"""
for text in wordlist: #遍历单词列表中的每个单词
target_name=os.path.join(r"..\sounds",text+".mp3")
if os.path.exists(target_name):
pass
else:
try:
data = {"audio":text, "lang": "zh","type":2} #向有道批量发请求,得到单词、短语的发音
resp = requests.post("https://dict.youdao.com/dictvoice", data=data,headers=headers)
with open(target_name,"wb") as f:
f.write(resp.content)
if resp.status_code != 200:#如果无法获取到keyword标签,证明单词没有查到,提醒单词不存在。
print(f"{text}单词不存在!")
with open("..\missingwords.txt","a+",encoding="utf-8") as f:
f.write(text+"\n")
except Exception as exc:
print(exc)
if __name__ == '__main__':
main()
最后我要提醒的是:由于我这个程序打包容易出错的原因,我采用了Python-standalone,就是把Python的embedded版本下载,通过安装pip和其它相关包,实现不用安装Python也能实现程序运行的方法。
如果遇到问题,也欢迎和我探讨:我的QQ403096966