如何用Python下载在线字典上的单词或者短语mp3

最新推荐文章于 2023-09-18 16:38:06 发布

PythonFun

最新推荐文章于 2023-09-18 16:38:06 发布

阅读量1.3k

点赞数 1

分类专栏： python小项目文章标签： python 开发语言 pandas

本文链接：https://blog.csdn.net/henanlion/article/details/126277738

版权

python小项目专栏收录该内容

29 篇文章 1 订阅

订阅专栏

最近在研究Python的批量下载功能，以前的做法是读取txt文本中的单词列表，然后拼接网址，利用wget下载下来。这种方法固然不错，但是我们通常是把单词放在了Excel里面，那么如何实现读取Excel下载单词或者短语呢？首先，我们利用pandas的数据框转字典的方法，即df.to_dict()把读取的单词或者短语都放到列表里面。然后，以Post的方法，向固定的网址放送数据，为了防止被封IP还要加上headers，这样就可以轻松实现把单词和短语的音频下载到本地了。

第一步：导入os, requests等包，同时设定headers.

import os
import requests
from pyquery import PyQuery as pq
import pandas as pd
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}

第二步：定义函数get_wordlist()，获取Excel中的单词或者短语，存入到列表当中。

def get_wordlist():
    """
    获取词表
    """
    ls=[]
    df = pd.read_excel(r"../ppt素材/words.xlsx") #读取Excel生成数据框df
    data = df.to_dict('records') 
    for x in data:
        ls.append(x["单词"])
    return ls

第三步：向在线字典发送数据，以Post的方法获取网页数据，以二进制的方法读取并写入本地，并以单词或者短语的名称来命名。

def look_up_words(wordlist):
    """
    爬取有道词典上的单词音标、词义、发音mp3
    
    """
    for text in wordlist: #遍历单词列表中的每个单词
        target_name=os.path.join(r"..\sounds",text+".mp3") #读取当前目录下sounds文件夹里的mp3
        if os.path.exists(target_name):
            pass
        else: 
            try:
                data = {"audio":text, "lang": "zh","type":2} #向有道批量发请求，得到单词、短语的发音
                resp = requests.post("https://dict.youdao.com/dictvoice", data=data,headers=headers) #发起数据请求
                with open(target_name,"wb") as f:#获取请求结果并写入本地
                    f.write(resp.content)
                if resp.status_code != 200:#如果无法获取到keyword标签，证明单词没有查到，提醒单词不存在。
                    print(f"{text}单词不存在！")
                    with open("..\missingwords.txt","a+",encoding="utf-8") as f:
                        f.write(text+"\n")
            except Exception as exc:
                print(exc)

第四步：定义一个主函数，即程序的入口。

def main():
    try:
        wordlist=get_wordlist() #获取词表
        look_up_words(wordlist) #发起数据请求，获得音频的二进制数据，并写入到本地
    except Exception as exc: #如果无法获得数据就打印出错误，并继续进行下一个。
        print(exc)

这里放出完整的程序代码：

# -*- coding: utf-8 -*-
# @Time : 2022/07/19 22:00
# @Author : Gordon
import os
import requests
from pyquery import PyQuery as pq
import pandas as pd
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}
def main():
    try:
        wordlist=get_wordlist()
        look_up_words(wordlist)
    except Exception as exc:
        print(exc)

def get_wordlist():
    """
    获取词表
    
    """
    ls=[]
    df = pd.read_excel(r"../ppt素材/words.xlsx")
    data = df.to_dict('records')
    for x in data:
        ls.append(x["单词"])
    return ls
def look_up_words(wordlist):
    """
    爬取有道词典上的单词音标、词义、发音mp3
    
    """
    
    for text in wordlist: #遍历单词列表中的每个单词
        target_name=os.path.join(r"..\sounds",text+".mp3")
        if os.path.exists(target_name):
            pass
        else: 
            try:
                data = {"audio":text, "lang": "zh","type":2} #向有道批量发请求，得到单词、短语的发音
                resp = requests.post("https://dict.youdao.com/dictvoice", data=data,headers=headers)
                with open(target_name,"wb") as f:
                    f.write(resp.content)
                if resp.status_code != 200:#如果无法获取到keyword标签，证明单词没有查到，提醒单词不存在。
                    print(f"{text}单词不存在！")
                    with open("..\missingwords.txt","a+",encoding="utf-8") as f:
                        f.write(text+"\n")
            except Exception as exc:
                print(exc)
if __name__ == '__main__':
    main()

最后我要提醒的是：由于我这个程序打包容易出错的原因，我采用了Python-standalone，就是把Python的embedded版本下载，通过安装pip和其它相关包，实现不用安装Python也能实现程序运行的方法。

如果遇到问题，也欢迎和我探讨：我的QQ403096966