如何用Python下载在线字典上的单词或者短语mp3

最近在研究Python的批量下载功能,以前的做法是读取txt文本中的单词列表,然后拼接网址,利用wget下载下来。这种方法固然不错,但是我们通常是把单词放在了Excel里面,那么如何实现读取Excel下载单词或者短语呢?首先,我们利用pandas的数据框转字典的方法,即df.to_dict()把读取的单词或者短语都放到列表里面。然后,以Post的方法,向固定的网址放送数据,为了防止被封IP还要加上headers,这样就可以轻松实现把单词和短语的音频下载到本地了。

第一步:导入os, requests等包,同时设定headers.

import os
import requests
from pyquery import PyQuery as pq
import pandas as pd
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}

第二步:定义函数get_wordlist(),获取Excel中的单词或者短语,存入到列表当中。

def get_wordlist():
    """
    获取词表
    """
    ls=[]
    df = pd.read_excel(r"../ppt素材/words.xlsx") #读取Excel生成数据框df
    data = df.to_dict('records') 
    for x in data:
        ls.append(x["单词"])
    return ls

第三步:向在线字典发送数据,以Post的方法获取网页数据,以二进制的方法读取并写入本地,并以单词或者短语的名称来命名。

def look_up_words(wordlist):
    """
    爬取有道词典上的单词音标、词义、发音mp3
    
    """
    for text in wordlist: #遍历单词列表中的每个单词
        target_name=os.path.join(r"..\sounds",text+".mp3") #读取当前目录下sounds文件夹里的mp3
        if os.path.exists(target_name):
            pass
        else: 
            try:
                data = {"audio":text, "lang": "zh","type":2} #向有道批量发请求,得到单词、短语的发音
                resp = requests.post("https://dict.youdao.com/dictvoice", data=data,headers=headers) #发起数据请求
                with open(target_name,"wb") as f:#获取请求结果并写入本地
                    f.write(resp.content)
                if resp.status_code != 200:#如果无法获取到keyword标签,证明单词没有查到,提醒单词不存在。
                    print(f"{text}单词不存在!")
                    with open("..\missingwords.txt","a+",encoding="utf-8") as f:
                        f.write(text+"\n")
            except Exception as exc:
                print(exc)

第四步:定义一个主函数,即程序的入口。

def main():
    try:
        wordlist=get_wordlist() #获取词表
        look_up_words(wordlist) #发起数据请求,获得音频的二进制数据,并写入到本地
    except Exception as exc: #如果无法获得数据就打印出错误,并继续进行下一个。
        print(exc)

这里放出完整的程序代码:

# -*- coding: utf-8 -*-
# @Time : 2022/07/19 22:00
# @Author : Gordon
import os
import requests
from pyquery import PyQuery as pq
import pandas as pd
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}
def main():
    try:
        wordlist=get_wordlist()
        look_up_words(wordlist)
    except Exception as exc:
        print(exc)

def get_wordlist():
    """
    获取词表
    
    """
    ls=[]
    df = pd.read_excel(r"../ppt素材/words.xlsx")
    data = df.to_dict('records')
    for x in data:
        ls.append(x["单词"])
    return ls
def look_up_words(wordlist):
    """
    爬取有道词典上的单词音标、词义、发音mp3
    
    """
    
    for text in wordlist: #遍历单词列表中的每个单词
        target_name=os.path.join(r"..\sounds",text+".mp3")
        if os.path.exists(target_name):
            pass
        else: 
            try:
                data = {"audio":text, "lang": "zh","type":2} #向有道批量发请求,得到单词、短语的发音
                resp = requests.post("https://dict.youdao.com/dictvoice", data=data,headers=headers)
                with open(target_name,"wb") as f:
                    f.write(resp.content)
                if resp.status_code != 200:#如果无法获取到keyword标签,证明单词没有查到,提醒单词不存在。
                    print(f"{text}单词不存在!")
                    with open("..\missingwords.txt","a+",encoding="utf-8") as f:
                        f.write(text+"\n")
            except Exception as exc:
                print(exc)
if __name__ == '__main__':
    main()

最后我要提醒的是:由于我这个程序打包容易出错的原因,我采用了Python-standalone,就是把Python的embedded版本下载,通过安装pip和其它相关包,实现不用安装Python也能实现程序运行的方法。

如果遇到问题,也欢迎和我探讨:我的QQ403096966

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PythonFun

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值