python实现word转anki制卡格式

最新推荐文章于 2025-03-27 17:15:00 发布

cc啊昂昂

最新推荐文章于 2025-03-27 17:15:00 发布

阅读量3.1k

点赞数 3

分类专栏： # python 笔记文章标签： python 正则表达式 html 经验分享

本文链接：https://blog.csdn.net/qq_45735611/article/details/108142081

版权

笔记同时被 2 个专栏收录

32 篇文章

订阅专栏

python

4 篇文章

订阅专栏

目录阿

超级长的吐槽前言

最近需要背一下短语,没有在各大背单词app上面找到我需要背的词书.没办法了,去网上找到了某垃圾教育网站的word,…,这个格式,简直惨不忍睹,???那个憨憨做的文档??分栏不会吗居然手打空格来分栏,我佛了np,来感受一下
在这里插入图片描述

好吧,我承认光是把格式改成一条词汇一行我就花了半个小时…
在这里插入图片描述

目标简述

首先需要将上一张图片的格式转换为英文和汉字分开并且以tab制表符分开,(在anki导入卡片的时候使用制表符分割字段)
在这里插入图片描述
然后还需要给短语加上例句,变成这样

最后进行导入操作,得到

第一歩:将段落格式转换为英文和汉字分开并且以tab制表符分开

import re
# 
# 用于anki卡片txt制作，简单实现对英文和中文的分割，分隔符为\t
# python 3.5版本
# 正则匹配中文，固定形式：\u4E00-\u9FA5
# 
with open("1.txt","r") as tt: #1.txt为目标文档
    for i in tt.readlines():
        text = i
        regex_str = ".*?([\u4E00-\u9FA5|\W]+).*?" #构造patten
        ch = re.findall(regex_str, text) #读取所有中文
        en = re.findall('[a-zA-Z0-9]+',text) #读取所有英文
        if ch:#如果读取到了中文
            rc="" #初始化中文翻译结果变量
            Re="" #初始化短语结果变量
            for j in ch:
                rc=rc+j#组装中文结果
        if en:#如果读取到了英文
            for k in en:
                Re=Re+k+" "#组装短语结果,单词与单词之间还需要加一个空格
            print(Re)
        with open("2.txt","a") as tt2:
            tt2.write(Re+"\t"+rc)#写入结果(追加)

第二步:使用有道翻译url带入短语参数获取例句信息

这里用到了requests库用于发送翻译请求,BeautifulSoup库用于读取指定内容,html库用于去除所有的html标记(太方便了这个库)
这里主要是在上一步的"判断如果读取到了英文"后面加入内容

import re,requests
from bs4 import BeautifulSoup
from w3lib import html
# 
# 用于anki卡片txt制作，简单实现对英文和中文的分割，分隔符为\t
# python 3.5版本
# 正则匹配中文，固定形式：\u4E00-\u9FA5
# 
with open("1.txt","r") as tt:
    for i in tt.readlines():
        text = i
        regex_str = ".*?([\u4E00-\u9FA5|\W]+).*?"
        ch = re.findall(regex_str, text)
        en = re.findall('[a-zA-Z0-9]+',text)
        if ch:
            rc=""
            Re=""
            for j in ch:
                rc=rc+j
        if en:
            for k in en:
                Re=Re+k+" "
            print(Re)
            url="http://dict.youdao.com/w/eng/"+Re#构造翻译请求链接
            Rs=requests.get(url)#发送链接
            Rs=BeautifulSoup(Rs.text,'html.parser')#指定解析方式为html
            if Rs.select('.examples'):#先判断有没有提供柯林斯英汉双解大词典例句 注释1
                Rs=Rs.select('.examples') #注释2
            else:#如果没有就找普通例句
                Rs=Rs.select('#bilingual')#注释2
            Rs= str(html.remove_tags(str(Rs)))#去掉所有html代码
            Rs = Rs.replace("《柯林斯英汉双解大词典》","").replace("《牛津词典》","").replace("\n","").replace("更多双语例句","").replace("精选例句","")
            #去掉不必要的信息
        with open("2.txt","a") as tt2:
            tt2.write(Re+"\t"+rc.replace("\n","")+str(Rs)+"\n")#写入数据并且英文与答案之间以tab隔开

注释1:随便翻译一个词汇发现结果界面会有2个地方出现例句,第一个是柯林斯英汉双解大词典例句,第二个是其他大辞典里面的例句.不过有些词汇的翻译并没有柯林斯英汉双解大词典例句.

查看网页源代码发现柯林斯英汉双解大词典例句的class=examples.
注释2:仔细观察后发现普通例句的id为bilingual