python英语词汇读音_利用PYTHON 爬虫爬出自己的英语单词库

于 2020-11-24 03:25:16 发布

· 1k 阅读

·

0

·

文章标签：

#python英语词汇读音

本文讲述了作者为何要建立自己的英语单词库，需求分析包括单词、音标、词性、释义和例句等。选择了使用Python的urllib和lxml库来爬取必应字典的数据，实现爬取并解析单词信息，最终将结果保存到文本文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么要建立自己的单词库

用过各种的背单词软件，总是在使用其他人的词库或者软件自己提供的词库，基本是人家提供什么自己就用什么，要想有更多的自主基本没有，最近看一个 COCA的按单词使用频率来提取的2万单词表，但没有对应的单词库，知米里倒是可以直接导入英文单词，系统帮你匹配上音标、读音、例句及解释，然而匹配后的结果你却无法导出。

特别是最近准备利用AnkiDroid来进行单词背诵，所以有种要建立自己的单词库的需求。更进一步或许可以自己开发一个背单词的软件也是有可能的。“万里长征第一步，先来建立单词库”，走一步看一步吧。

词库的需求分析

根据需求，词库应该包括如下内容

英文：对应英语单词

音标及读音：分为美语音标，读音，英语音标，读音

词性，中文释义：单词多个含义的不同词性和中文

例句：单词的例句

助记：比如词根或者其他有助于记忆的说明

输出一个文本文件好了，方便以后进行各种处理

使用技术的选择

获得单词的相关信息，目前可以通过百度翻译，有道翻译，必应翻译，谷歌翻译，金山词霸等方式，在综合考虑后选择通过必应字典模式获得相关数据。

数据爬取上，目前最为流行的并且相对成熟的是使用python（也就懂python），所以选择python

对于使用python爬取数据，一般有两种模式，一种是python+urllib+lxml, python+selenium+chrome。本身就是一个小项目，同时自身学习能力有限就没考虑scrapy的爬虫框架了。估计以后要是大量、各种、经常性爬取内容才会考虑这个。什么都要学习呀，学习是要成本的。

python+selenium+chrome

可以模拟浏览器动作，能有效的解决ajax模式下的数据爬取问题

很容易实现基于浏览器的测试

必须能够趟过 selenium 的一系列坑，相对学习成本要高

python+urllib+lxml

学习成本相对较低

ajax，动态网页的爬取不方便

当然两者都需要有一定的正则表达式能力。由于必应字典基本都属于静态网页，所以选择方式2就是python+urllib+lxml模式。

技术实现

1.python

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。