03-11 周一 使用Zotero阅读文献时提取单词到不背单词App步骤

本文介绍了一种利用Zotero标记生词,通过正则表达式处理,然后导入不背单词App进行记忆的工作流程,以提高阅读大型语言模型文献时的词汇学习效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

03-11 周一 单词提取步骤
时间版本修改人描述
2024年3月11日09:32:49V0.1宋全恒新建文档

简介

工作流

 积累是很重要的事情,楼主最近刚刚完成了一篇关于Large Language Models的综述,这个综述一共83页吧,读起来速度就不是很快,又没有什么高明的办法,就只能一点一点,逐行的去阅读,而且在阅读过程中,总是会有生词出现,为了快速记忆这些生词,楼主就去找了单词相关的应用,最终形成了如下的工作流:

  • 在Zotero中阅读文献的时候,对生词进行着色,楼主选择了红色,短语选择的颜色为蓝色。
  • 导出这些生成,然后转换成逐行的格式
  • 将生词导入到不背单词App,进行艾宾浩斯的记忆,专项提高。

依赖的软件

 在单词导出的过程中,主要是包含如下的软件:

  1. Zotero,对生词进行标记
  2. VS Code, 使用正则表达式对文本中生词进行处理
  3. 不背单词,网页,因此只要有浏览器就可以。
  4. 搜狗输入法,保存成短语,方便下次提取相关的正则表达式

操作步骤

拷贝Zotero中的单词

 在我们阅读paper时,一般会选择一个文献管理工具来进行阅读,楼主推荐大家使用Zotero进行文献的阅读,这是因为它有许多的插件,非常好用。诸如翻译插件,着色,标签。好的工具能够提升阅读的效率,在整理时会有许多的助力。

 楼主在阅读论文的时候,因为最近才开始读,所以会有很多的生词,是将单个生词标记成红色的。

提取单词“pertinent”

 首先是根据单词的格式提取特征,其中具体的单词及含义的格式有如下几种:

“pertinent” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=RYLAIUFP)) pertinent  
英 [ˈpɜːtɪnənt][ˈpɜːrt(ə)nənt]  
adj. 切题的,相关的

“implications” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=GWMLFT4K)) implications  
英 [ˌɪmplɪˈkeɪʃ(ə)nz][ˌɪmplɪˈkeɪʃ(ə)nz]  
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)

 因此,我们首先将包含单词“pertinent”的行中,处理成仅仅包含单词内容。

 在VS Code中点击Replace all即可将上述的单词替换成如下的形式:
pertinent
英 [ˈpɜːtɪnənt][ˈpɜːrt(ə)nənt]  
adj. 切题的,相关的

implications
英 [ˌɪmplɪˈkeɪʃ(ə)nz][ˌɪmplɪˈkeɪʃ(ə)nz]  
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)

去除中文行

 在经过上述处理中,可以将单词提取成为单独的一行了,因此,接下来处理发音行和释义行。可以看到都有中文,因此将含有中文字符的行删除即可

propose
英 [prəˈpəʊz][prəˈpoʊz]  
v. 提议,建议;提出(理论或解释);提名,推荐;计划,打算;求婚;(向立法机构或委员会)提交(动议);提议祝(酒)  
[ 第三人称单数 proposes 现在分词 proposing 过去式 proposed 过去分词 proposed ]

proximity
英 [prɒkˈsɪməti][prɑːkˈsɪməti]  
n. (时间、空间、关系的)靠近,亲近

本次提取的过程是将行内包含中文字符的行去除,比方说包括发音的英, 美以及中文注释

 使用替换功能,使用如下正则表达式匹配包含中文字符的行

.*[\u4E00-\u9FA5]+.*
 可以看到,一共有1083行包含了中文,这些行是我们要删除的。

移除空行

 接下来将使用vscode将空行移除

> 注:由于不背单词在解析的时候,逐行解析,所以有空行也是没有关系的。
\n\s*\n

 在去除了空行之后,就成了下面的样式了

## 检查移除不是单词的内容

 经过处理后的内容,可能包含一些特殊情况,手动删除。

halving
['ha:viŋ]  
amplify
susceptible
lossless
uneven
predominantly
mandates
n.  
confines
intractable

 如上文出现的n.、['ha:viŋ] 手动移除即可。

将这些常用的正则匹配保存进入搜狗输入法

 记住,如果一个问题,你解决过一次,那很有可能,你还是会遇到同样的场景的。所以,将这些正则字符串保存起来,方便提取,是一个不错的方式。

## 导入不单词

 接下来就是导入浏览器,将单词导入到不背单词。登录,然后自制词书,即可。

 不再赘述

总结

 最近自己也是疯狂的在积累单词,自己上周日刚看完了一本东野圭吾的白夜行,整理了人物关系图。在阅读paper的时候,就意识到了结构structure的重要性,所以笔者决定再次进行金字塔原理的阅读,而且我再阅读的时候,还能感受到当时我阅读Martin Fowler的《重构 改善既有代码的设计》所带给我的感动,我感觉这本书也是一个这样的书,书里面包含了深刻的洞见,等我看完再分享分享。

 最近晚上睡眠的时候,睡前也会头脑风暴一下学习的单词,希望能够积累更多的生词吧,然后能够多读一些paper,2024年。

 最后,我们可以在搜狗输入法中存储这些快捷键。然后以后就可以重复使用了。

快捷键实际内容作用
dctq“(\w+)”.*单词提取, 在替换中填$1
zwsc.[\u4E00-\u9FA5]+.搜索中文,在替换中填空
khsc\n\s*$空行删除, 在替换中填空
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值