python人工智能翻译_小叮当python人工智能篇:英文课文写入word中

本文档介绍如何利用Python实现从网上自动抓取英语课文内容并将其写入Word文档,避免手动复制粘贴的繁琐工作。首先,通过人工智能图文识别获取课文网址,然后检查并修正错误网址,获取正确内容。接着,使用Python解析网页,提取课文标题和内容,去除HTML标签和特殊字符。最后,将清理后的课文自动写入新建的Word文件中,实现自动化处理,提高效率。
摘要由CSDN通过智能技术生成

在“小叮当python人工智能篇:轻松获得英语课本电子版”中,已为大家分享通过人工智能的图文识别方法拿到英语课本的电子版。

u=912000674,2759014932&fm=173&app=25&f=JPEG?w=280&h=167&s=2BC433624D65AC941B78A89100008091

其思路是:通过课后网址--->拍照到电脑--->人工智能图文识别--->获得大体正确的网址--->人工对比修正--->获得正确网址--->访问网址--->将内容复制粘贴到本地--->获得课文电子版

u=2648665246,1691719778&fm=173&app=25&f=JPEG?w=603&h=318&s=45C1B844C415AC670BF2D4810300F099

但是,这种方法仍需要我们通过网址访问后,进行手工粘贴复制内容到本地。当课文多时,那也可真是累成狗!

u=1657946722,2716312171&fm=173&app=25&f=JPEG?w=421&h=329&s=5F04FC0ADAD163F39DA4EDFC03001063

难道我们必须手工复制粘贴?答案当然还是:不存在的!

a9d3fd1f4134970a5df319a699cad1c8a6865db2.jpg

都人工智能新时代了,这种机械重复的工作就交给计算机来完成吧。

u=3550910813,3682752293&fm=173&app=25&f=JPEG?w=260&h=189&s=3C377994D8761296192E7D8E0300A098

而我们人类,应该过上舒服惬意而又快乐的生活。

u=3662169338,2738390677&fm=173&app=25&f=JPEG?w=473&h=272&s=9FAFE20506374B8462ADE0D70300D0E3

所以,我们可以通过语法简单、代码简洁、容易上手的python代码来为我们工作,使我们从大量的简单机械重复性的工作中解脱出来!

u=2537822930,3233549963&fm=173&app=25&f=JPEG?w=467&h=321&s=FF0AA644DA45256C029355890300308A

通过“小叮当python人工智能篇:轻松获得英语课本电子版”中的方法,我们已经可以轻松快速的拿到Unit1、Unit5单元的TextA和TextB的访问网址。

u=1486274169,3730120449&fm=173&app=25&f=JPEG?w=640&h=460&s=EEB025C193BCB3CC466D54060300E0C0

曾有伟人说过,“世界上怕就怕认真二字!”

u=104178198,4190832699&fm=173&app=25&f=JPEG?w=496&h=254&s=92182A6C8C01305949BF966F0300A068

而IT小叮当就最讲究认真二字!我们得到的网址是否都对应着英文课本呢?

u=1511204288,2694575502&fm=173&app=25&f=JPEG?w=460&h=447&s=2AAC7A229FD249E358F425D30000A0B1

经过对比,果然发现有一个与课文内容不相符的网址——“url_unit5_texta”

u=4159126633,3908190568&fm=173&app=25&f=JPEG?w=640&h=299&s=8C97CD10877B7982507D58DA0300D0B2

此时我们仍利用“小叮当python人工智能篇:轻松获得英语课本电子版”中的方法识别课文标题。将识别出来的标题放入百度中进行搜索,果然立马就找到一个与课文相符的网址。

u=197887465,2443722728&fm=173&app=25&f=JPEG?w=639&h=316&s=0C85CD10DBD978CA425819DB030090B1

我们将网址复制粘贴给变量“url_unit5_texta",此时,我们已得到正确访问的课文网址。

u=738982113,721277225&fm=173&app=25&f=JPEG?w=640&h=437&s=FEA007C113BCB7CC4C6C54060300E0C0

下面,我们就以unit1-texta为例,为大家分享怎样通过python让计算机为我们将英语课文自动写入word。

u=479984613,731048696&fm=173&app=25&f=JPEG?w=639&h=385&s=F59AAE76CC8078C240EBC37D0300506E

Step1.拿到课文所在网页内容

u=1436094481,3164581063&fm=173&app=25&f=JPEG?w=640&h=448&s=AE9015C353ACB74D58CDC5060100E0C1

Step2.获取课文内容

经分析发现,课文标题在一个class为“pageTitle”的h2标签中。

u=2240075622,3198845869&fm=173&app=25&f=JPEG?w=640&h=450&s=AE9005C253AE874D5ACD750D030070C1

课文内容在p标签下。

u=1822540701,1559963305&fm=173&app=25&f=JPEG?w=640&h=438&s=EE9005C212BE81CE48CDF50B0300B0C2

我们通过简单的正则表达式即可拿到课文标题和内容。

u=3490963984,3637576025&fm=173&app=25&f=JPEG?w=640&h=451&s=AE9205C392BD8BCC167D840F0300E0C2

但我们发现,此时的英文课文中还有一些“
"换行标签等的格式标签存在。我们使用正则去掉"<>",从而将标签去掉。

u=3116383602,3827816691&fm=173&app=25&f=JPEG?w=640&h=462&s=BE8025C3D2BCBFCC0C74840E0300F0C2

但此时我们发现,还有一种特殊字符存在,形如“&rsquo”之类的html字符实体。

u=356992405,2653086888&fm=173&app=25&f=JPEG?w=639&h=233&s=0A0E7C2297C04D4358D5C0DA000080B3

我们使用python中的html库,将其转化为相应的字符。

u=3963944582,2208058164&fm=173&app=25&f=JPEG?w=640&h=441&s=968805E2D2BCBBCC1465C40B0300F0C3

可以看到使用html库解析后,我们已得到不含特殊字符干扰的英文课文。

u=1485870058,1585867292&fm=173&app=25&f=JPEG?w=640&h=356&s=EEA025C11BECBCCC40ECF50B0100E0C1

Step3.将英语课文写入word中

我们先新建一个名为“0英语课文电子版”的文件夹,用来存储我们将要写成word的英语课文。

u=3040350015,2753560982&fm=173&app=25&f=JPEG?w=603&h=198&s=41135D985AD88C09326584D90300D0B3

建好存储的文件夹后,我们来让python为我们自动写入英语课文,并保存为word形式。可以看到,程序运行前,该文件夹为空。

u=2637772852,841264752&fm=173&app=25&f=JPEG?w=640&h=348&s=A4985590B0ADA90D286F84D90100E0B0

执行程序后,我们建的文件夹下便多了一个“unit1-texta.doc"的文件。可见,程序已帮我们自动写好word文件。

u=3524343474,2311355977&fm=173&app=25&f=JPEG?w=640&h=251&s=C902CD1895397C2B4AD190D8030010B3

双击打开后,提示选择文档编码,默认选择为"utf-8",我们点击确定即可。

u=3711727256,757243415&fm=173&app=25&f=JPEG?w=640&h=443&s=E113CF3819AFC0CC147D80D8030010B3

到此,我们已成功实现将获得的英语课文写入word之中。

u=3624210496,922980579&fm=173&app=25&f=JPEG?w=640&h=546&s=4012CC3A390EC4CC42D5D1DB0000C0B3

虽然,我们已成功将英文课文写入word中,但我们更需要的是获得它的汉语翻译。

u=1844856701,2208863000&fm=173&app=25&f=JPEG?w=533&h=359&s=FA63D14EBADA56DE802C18310300C050

由于今天四六级监考,时间有限,小叮当将在“小叮当python人工智能篇:让Google为我们自动翻译英语课文!”为大家分享怎样让Goole为我们自动翻译出英语课文。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值