Python处理英文文档(添加音标和翻译)

Python处理英文文档

上英语课的时候老师总喜欢找人读文章和翻译文章,一点点的准备太浪费时间,就用Python写了一个简单的程序,实现从word文档读取文本,为复杂单词标注音标并以段落为单位进行翻译,然后保存成一个新的文档。

单词标注音标

调用Python工具库eng_to_ipa,直接pip install 安装,只需要一行代码就可以实现单词音标标注。

import eng_to_ipa as ipa
pronounce=ipa.convert("The idea of instructing computers in natural language has fascinated researchers for decades, as it promises to make the power
of computing more customizable and accessible to people without programming training")
print(pronounce)
#output
#ðə aɪˈdiə əv ˌɪnˈstrəktɪŋ kəmˈpjutərz ɪn ˈnæʧərəl ˈlæŋgwɪʤ həz ˈfæsəˌneɪtɪd ˈrisərʧərz fər ˈdɛkeɪdz, ɛz ɪt ˈprɑməsəz tɪ meɪk ðə paʊər əv kəmˈpjutɪŋ mɔr customizable* ənd ækˈsɛsəbəl tɪ ˈpipəl without* ˈproʊˌgræmɪŋ ˈtreɪnɪŋ
#有连字符或者特殊符号的单词无法正常翻译,但这种情况是少数

英文翻译

调用Python库translate,也是pip install 安装,两行代码实现英文翻译。(需要联网)

from translate import Translator
#英译中
translator=Translator(from_lang="en",to_lang="zh")
trans=translator.translate("The idea of instructing computers in natural language has fascinated researchers for decades, as it promises to make the power of computing more customizable and accessible to people without programming training")
#output
#几十年来,用自然语言教授计算机的想法一直吸引着研究人员,因为它有望使计算的力量更具可定制性和可访问性,让没有编程培训的人
#此种方法输入的最大字符长度为500

对word文档的操作

借助docx库可以实现对word文档的读取和写入,直接使用pip安装。

from docx import Document
doc = Document(path)
#读取段落
doc.paragraphs
#添加段落
doc.add_paragraph(save_para)

方法整合

借助上面所介绍的3个工具库可以实现目标功能,整合上面的3段代码,最后代码如下。

from docx import Document
from translate import Translator
translator=Translator(from_lang="en",to_lang="zh")
path = '../en_data/unit2.docx'
save_path="../en_data/unit2_trans.docx"
doc = Document(path)
save_doc=Document(save_path)
for paragraph in doc.paragraphs:
    #将句子切分为单词
    text=paragraph.text.split(" ")
    save_para=""
    save_trans_para=""
    #将句子切分,防止超出最大长度
    sentences=paragraph.text.split(".")
    print(sentences)
    for i in range(len(text)):
    #只对长度大于6的单词标注音标
        if len(text[i])<7:
            save_para=save_para+text[i]+" "
        else:
            save_para=save_para+text[i]+"["+ipa.convert(text[i])+"]"+" "
    save_doc.add_paragraph(save_para)
    for sentence in sentences:
        save_trans_para=save_trans_para+translator.translate(str(sentence))+"。"
    save_doc.add_paragraph(save_trans_para)
    save_doc.add_paragraph(" ")
save_doc.save(save_path)

最终保存的word文档效果如下图,基本满足日常学习的需求。
效果图

待改进之处

目前我认为存在的一个问题就是我只是用单词长度简单的区分了需要标注的单词和不需要标注的单词,这种方法有些过于草率,如果可以建立困难单词数据库的话,就能做到标注真正需要标注的单词。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我不读研

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值