使用Python批量抓取单词发音

备注:今年1月份写的文章,以后准备长期驻扎在这儿,就贴过来了。

        1.12号晚上总算彻底的考完了所有的科目,昨天可以睡一个安稳的懒觉了。从床上爬起来之后,随便从书架上拿了一本书,竟然是《备战大学德语四级考试·词汇篇》,不觉想起当初“战绩辉煌”的德语课。翻开书,看了几个单词后,发现都忘记了该怎么发音,所以想把每个单词的发音放到P3里,等睡不着的时候可以听一听~

        所以,具体需求就是:根据一个文本文件,该文件中提供了一个单词列表,格式为每个单词占一行。需要根据这个列表,从某个网站上把对应单词的发音的mp3文件保存在本地磁盘上,而且mp3文件保存为相应的单词的名称。

         大致就是这些,想想还缺点什么,恩,多线程---典型的多线程应用环境啊。确定一下实现环境,看来Python是首选了。因为快,当然是说开发速度快了~

         该找个网站,从google上搜了搜(最近学校可以用ipv6google了,速度很快,过滤也少),找到一个网站http://www.leo.de/,上面有一个Deutsch–Englisch的图标,当然也有Deutsch –Chinesisch图标,想想欧洲人那种自恃清高的态度,还是果断选了Deutsch-Englisch。随便搜索一个单词,比如“abendessen”,然后会弹出一个列表,点击发音图标的时候,会弹出一个框,框中还有一个推荐网站http://www.dwds.de/。点击之后,感觉风格清新自然简洁。还是输入刚刚那个单词“abendessen”,点击“suche”之后,在浏览器上看到一个URLhttp://www.dwds.de/?qu=abendessen&view=1 view=1区分了是从主页搜索单词还是从搜索单词后弹出的某个页面中搜索的单词两种情况。可以在当前这个页面(http://www.dwds.de/?qu=abendessen&view=1)再输入“abendessen”,点击“suche”后,你会发现URL地址已经改变了,变为:http://www.dwds.de/?qu=abendessen

         再试几个单词后,基本就可以确定每个单词对应的查询页面的URL地址格式为:

http://www.dwds.de/?qu=所查询的单词

接下来就是看下声音地址的组成格式。查看下页面的Html源代码,CTRL+F搜索sound。在刚刚查询“abendessen”的页面中可以找到这样的一个filename: http://media.dwds.de/dwds/media/sound/dwdswb_aussprache_dev/0ddaf706368d33af4d5aca4cebb41f17.mp3。可以基本确信对应于每个单词的mp3文件格式如下:

http://media.dwds.de/dwds/media/sound/dwdswb_aussprache_dev/+单词对应的哈希值.mp3

不知道这里为什么要用哈希值,可以肯定的是不是用来提高检索速度的,因为单词本身就可以作为唯一的键,而且单词的最大长度应该也不会超过一个固定的上限值(比如:40?)。也许使用哈希值是为了防止用程序自动下载发音文件,减少对服务器的冲击吧,我猜。刚看到这个32位的串,我想大家第一反应应该都是猜它是不是单词对应的md5值(比如QQ登录的时候,就对针对密码进行三次md5加密),很不幸的,这个串不是(这个,可以使用Python在交互式模式下做一个简单的验证)。不过这个并不影响下载这个mp3文件,恩,就是先打开页面,然后从页面上找到mp3URL,然后再下载。

         好了,整理一下思路,简单的说,下载一个单词对应的mp3的流程如下:

         Step1:从文件中读取一个单词

         Step2:构造一个单词查询页面的URL,将此URL对应的html源代码保存到content

         Step3:使用正则表达式在content中搜索对应mp3文件的URL

         Step4:读取mp3数据,在本地新建一个文件,把数据保存进去

         Step5:如果没有结束,跳转到Step1

         恩,挺简单的流程。还需要增添的设施就是多线程,测试表明,平均每下载一个单词将近4秒钟,不能在一个线程在访问网络或者保存文件的时候让CPU空闲啊。所以,在运行程序的时候需要传入两个参数,一个就是需要开启的线程的数量,另外一个就是保存单词列表的文件名。不过,等我改天有时间了,实现一个线程池,这样就省事了,把任务扔到池子里就行了。否则在程序中还要考虑加锁解锁这种琐碎的事情,因为保存单词列表的队列是共享资源。这些分析清楚了,差不多就可以写代码了。把代码贴到这儿,仅供参考:

 

 
 
  1. #!/usr/bin/python 
  2.  
  3. #Author:lichao 
  4.  
  5. #Date:01-13-2012 
  6.  
  7. #Description:Download the .mp3 sound files that correspoding to the words in the given file. 
  8.  
  9. import threading 
  10.  
  11. import time 
  12.  
  13. import fileinput 
  14.  
  15. import re 
  16.  
  17. import urllib2 
  18.  
  19. import sys 
  20.  
  21.   
  22.  
  23. class DownloadWorker(threading.Thread): 
  24.  
  25.          global mutext 
  26.  
  27.          def __init__(self,wordsList,workerIndex): 
  28.  
  29.                    threading.Thread.__init__(self
  30.  
  31.                    self.queue=wordsList 
  32.  
  33.                    self.index=workerIndex 
  34.  
  35.          def run(self): 
  36.  
  37.                    print('worker%d start to work' % (self.index)) 
  38.  
  39.                    mutex.acquire() 
  40.  
  41.                    self.word=self.queue.front() 
  42.  
  43.                    mutex.release() 
  44.  
  45.                    while self.word!="0"
  46.  
  47.                             url = "http://www.dwds.de/?qu="+self.word 
  48.  
  49.                             urlContent = urllib2.urlopen(url).read() 
  50.  
  51.                             urlList = re.findall('http://media.dwds.de/dwds/media/sound/dwdswb_aussprache_dev/.*\.mp3', urlContent) 
  52.  
  53.                             try
  54.  
  55.                                      soundData = urllib2.urlopen(urlList[0]).read() 
  56.  
  57.                                      saveName=self.word+".mp3" 
  58.  
  59.                                      output = open(saveName,'wb'
  60.  
  61.                                      output.write(soundData) 
  62.  
  63.                                      output.close() 
  64.  
  65.                                      print('%s:OK                                 --Post by worker%d' % (self.word,self.index) ) 
  66.  
  67.                             except
  68.  
  69.                                      print('%s:FAILED                                   --Post by worker%d' % (self.word,self.index) ) 
  70.  
  71.                             finally
  72.  
  73.                                      mutex.acquire() 
  74.  
  75.                                      self.word=self.queue.front() 
  76.  
  77.                                      mutex.release() 
  78.  
  79.                    print('worker%d eixt' % self.index) 
  80.  
  81. class WordsList(): 
  82.  
  83.          def __init__(self,filePath): 
  84.  
  85.                    self.t=[] 
  86.  
  87.                    for line in fileinput.input(filePath): 
  88.  
  89.                             if(len(line)>1 and line[len(line)-1]=='\n'): 
  90.  
  91.                                      line=line[0:len(line)-1
  92.  
  93.                                      self.t.append(line) 
  94.  
  95.                             else
  96.  
  97.                                      self.t.append(line) 
  98.  
  99.                    self.t.append('0'
  100.  
  101.          def front(self): 
  102.  
  103.                    if(self.t[0]!='0'): 
  104.  
  105.                             return self.t.pop(0
  106.  
  107.                    else
  108.  
  109.                             return self.t[0
  110.  
  111.                             
  112.  
  113. def main(): 
  114.  
  115.          global mutex 
  116.  
  117.          mutex=threading.Lock() 
  118.  
  119.          workerNumber=int(sys.argv[1]) 
  120.  
  121.          filePath=sys.argv[2
  122.  
  123.          wordsList=WordsList(filePath) 
  124.  
  125.          workerPool=[] 
  126.  
  127.          for i in range(0,workerNumber): 
  128.  
  129.                    worker=DownloadWorker(wordsList,i) 
  130.  
  131.                    workerPool.append(worker) 
  132.  
  133.          for i in range(0,workerNumber): 
  134.  
  135.                    workerPool[i].start() 
  136.  
  137.                    
  138.  
  139. if __name__ == "__main__"
  140.  
  141.          main() 

下面两张截图是运行效果图,其中图1是运行效果图。是的,有些单词的mp3下载过程中出错了,这是由于某些单词的发音太简单了,这些单词级别估计是1级,估计是网站的设计者觉得这种简单的单词没有必要制作一个mp3文件放在上面。一般来说,稍难一点的单词的发音都能下载到的。图2是下载后的截图,以后可以用来催眠了。

 

1:下载器运行效果

 

2:保存的声音文件

本文出自 “相信并热爱着” 博客,转载请与作者联系!

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值