python实现word转anki制卡格式

超级长的吐槽前言

最近需要背一下短语,没有在各大背单词app上面找到我需要背的词书.没办法了,去网上找到了某垃圾教育网站的word,…,这个格式,简直惨不忍睹,???那个憨憨做的文档??分栏不会吗居然手打空格来分栏,我佛了np,来感受一下
在这里插入图片描述

好吧,我承认光是把格式改成一条词汇一行我就花了半个小时…
在这里插入图片描述

目标简述

首先需要将上一张图片的格式转换为英文和汉字分开并且以tab制表符分开,(在anki导入卡片的时候使用制表符分割字段)
在这里插入图片描述
然后还需要给短语加上例句,变成这样
在这里插入图片描述
最后进行导入操作,得到
在这里插入图片描述

第一歩:将段落格式转换为英文和汉字分开并且以tab制表符分开

import re
# 
# 用于anki卡片txt制作,简单实现对英文和中文的分割,分隔符为\t
# python 3.5版本
# 正则匹配中文,固定形式:\u4E00-\u9FA5
# 
with open("1.txt","r") as tt: #1.txt为目标文档
    for i in tt.readlines():
        text = i
        regex_str = ".*?([\u4E00-\u9FA5|\W]+).*?" #构造patten
        ch = re.findall(regex_str, text) #读取所有中文
        en = re.findall('[a-zA-Z0-9]+',text) #读取所有英文
        if ch:#如果读取到了中文
            rc="" #初始化中文翻译结果变量
            Re="" #初始化短语结果变量
            for j in ch:
                rc=rc+j#组装中文结果
        if en:#如果读取到了英文
            for k in en:
                Re=Re+k+" "#组装短语结果,单词与单词之间还需要加一个空格
            print(Re)
        with open("2.txt","a") as tt2:
            tt2.write(Re+"\t"+rc)#写入结果(追加)

第二步:使用有道翻译url带入短语参数获取例句信息

这里用到了requests库用于发送翻译请求,BeautifulSoup库用于读取指定内容,html库用于去除所有的html标记(太方便了这个库)
这里主要是在上一步的"判断如果读取到了英文"后面加入内容

import re,requests
from bs4 import BeautifulSoup
from w3lib import html
# 
# 用于anki卡片txt制作,简单实现对英文和中文的分割,分隔符为\t
# python 3.5版本
# 正则匹配中文,固定形式:\u4E00-\u9FA5
# 
with open("1.txt","r") as tt:
    for i in tt.readlines():
        text = i
        regex_str = ".*?([\u4E00-\u9FA5|\W]+).*?"
        ch = re.findall(regex_str, text)
        en = re.findall('[a-zA-Z0-9]+',text)
        if ch:
            rc=""
            Re=""
            for j in ch:
                rc=rc+j
        if en:
            for k in en:
                Re=Re+k+" "
            print(Re)
            url="http://dict.youdao.com/w/eng/"+Re#构造翻译请求链接
            Rs=requests.get(url)#发送链接
            Rs=BeautifulSoup(Rs.text,'html.parser')#指定解析方式为html
            if Rs.select('.examples'):#先判断有没有提供柯林斯英汉双解大词典例句 注释1
                Rs=Rs.select('.examples') #注释2
            else:#如果没有就找普通例句
                Rs=Rs.select('#bilingual')#注释2
            Rs= str(html.remove_tags(str(Rs)))#去掉所有html代码
            Rs = Rs.replace("《柯林斯英汉双解大词典》","").replace("《牛津词典》","").replace("\n","").replace("更多双语例句","").replace("精选例句","")
            #去掉不必要的信息
        with open("2.txt","a") as tt2:
            tt2.write(Re+"\t"+rc.replace("\n","")+str(Rs)+"\n")#写入数据并且英文与答案之间以tab隔开
  • 注释1:随便翻译一个词汇发现结果界面会有2个地方出现例句,第一个是柯林斯英汉双解大词典例句,第二个是其他大辞典里面的例句.不过有些词汇的翻译并没有柯林斯英汉双解大词典例句.
    在这里插入图片描述
    查看网页源代码发现柯林斯英汉双解大词典例句的class=examples.
    在这里插入图片描述

  • 注释2:仔细观察后发现普通例句的id为bilingual
    在这里插入图片描述

第三步:导入anki

如下即可
在这里插入图片描述

尾巴:还是想吐槽一下,为什么这些教育网站都那么垃圾阿,界面也low,都几十年前的风格了吧,还卡…

<think>嗯,用户想要一个包含4000多个雅思核心词汇的词汇库,现在给的示例只有5个词。首先,我需要确定用户的具体需求。他们可能正在备考雅思,需要扩展词汇量,所以需要一个全面且系统的词汇表。示例中的格式Python字典,每个单词对应一个中文释义,所以用户可能希望以类似的格式来组织词汇库,方便后续编程或记忆使用。 接下来,我得考虑如何提供这样的词汇库。直接生成4000多个词汇不太现实,因为这样回答会过于冗长,而且可能超出平台的字数限制。另外,用户提到“示例数据,可自行扩展”,说明他们可能需要一个结构化的示例,然后自己扩展,而不是一次性获取全部词汇。因此,我应该提供一个包含更多词汇的示例,并指导用户如何自行扩展,同时推荐一些可靠的资源来获取完整的词汇表。 然后,我需要确保格式正确。用户示例中的词汇使用英文单词和中文释义,用双引号包裹,逗号分隔。因此,扩展后的示例应该保持同样的结构,可能按照字母顺序分组,方便用户查看。例如,分成A、B、C等字母开头的词汇组,每组包含多个单词,这样结构更清晰,也便于用户后续添加。 同时,用户可能希望词汇涵盖雅思常考的高频词汇,涉及不同主题,如学术、生活、科技、环境等。因此,在示例中,我需要包含不同类别的词汇,展示多样性。例如,加入“ambiguous”(模棱两可的)、“hypothesis”(假设)这样的学术词汇,以及“sustainable”(可持续的)这类环境相关词汇。 另外,要注意词汇的难度和实用性。雅思词汇通常包括一些学术术语、常见动词、形容词和名词,以及一些容易混淆的近义词。例如,用户示例中的“ephemeral”属于较高级的词汇,类似的词汇需要包括进去,同时确保释义准确,避免错误。 然后,考虑到用户可能需要扩展词汇库,我应该推荐一些权威的来源,如《剑桥雅思词汇》、《雅思词汇胜经》等书籍,或者在线资源如Quizlet、Memrise等平台,这些地方有现成的雅思词库,用户可以自行下载或导入。此外,建议用户按主题分类记忆,比如教育、科技、环境等,这样有助于系统化学习。 最后,检查格式是否符合用户的要求:行内数学表达式用$...$,但这里可能不涉及数学公式,所以主要确保代码块使用正确的语法,词汇和释义用双引号,逗号分隔,避免语法错误。同时,回答要结构清晰,分步骤说明,先给出扩展示例,再提供扩展方法,最后推荐资源,确保用户能够逐步解决问题。</think>我将为您提供扩展雅思词汇库的结构化方案及资源建议: # 雅思核心词汇库扩展方案 ## 1. 基础词汇框架(示例扩展) ```python vocabulary = { # A-C "analogous": "类似的", "ambivalent": "矛盾情绪的", "arbitrary": "武断的", "bilateral": "双边的", "cohesive": "有凝聚力的", # D-F "dichotomy": "二分法", "empirical": "经验主义的", "facilitate": "促进", "fallacious": "谬误的", # G-I "gregarious": "群居的", "homogeneous": "同质的", "hypothesis": "假设", "imminent": "迫近的", # J-M "juxtapose": "并置", "kinetic": "运动的", "lucid": "清晰的", "meticulous": "一丝不苟的", # N-P "nostalgia": "怀旧", "orthodox": "正统的", "paradox": "悖论", "quantifiable": "可量化的" } ``` ## 2. 系统化扩展方法 1️⃣ 主题分类法(建议按以下类别扩展): - 学术研究类:hypothesis, methodology, correlation - 社会发展类:urbanization, demographic, infrastructure - 科学技术类:biodegradable, algorithm, renewable - 生态环境类:biodiversity, deforestation, sustainable 2️⃣ 词根词缀法: - 前缀:mal-(不良), pseudo-(伪), poly-(多) - 后缀:-phobia(恐惧症), -ology(学科) - 词根:chron(时间), bio(生命) ## 3. 权威资源推荐 📚 推荐扩展来源: 1. 《剑桥雅思真题》高频词提取 2. 《Academic Word List》学术词表 3. 《牛津3000核心词》升级版 4. 雅思官方评分标准中的关键词 ## 4. 记忆策略建议 ✅ 分级记忆:按CEFR等级标注(B2/C1) ✅ 语境记忆:配套真题例句库 ✅ 近反义词:建立语义网络 ✅ 发音强化:配套国际音标 ## 5. 完整词库获取途径 🔗 推荐资源平台: - Quizlet雅思官方词库(含4000+词汇) - Memrise剑桥雅思课程 - 雅思哥APP核心词模块 - 新东方雅思词汇精讲 建议先掌握1500核心学术词汇,再通过真题阅读补充主题词汇。可利用Anki等工具制作记忆卡片,设置每日50词的学习计划,并配合听写检测掌握程度。 需要特定主题(如环境、教育、科技)的专项词库可告知,我可提供针对性扩展方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值