时间 | 版本 | 修改人 | 描述 |
---|---|---|---|
2024年3月11日09:32:49 | V0.1 | 宋全恒 | 新建文档 |
简介
工作流
积累是很重要的事情,楼主最近刚刚完成了一篇关于Large Language Models的综述,这个综述一共83页吧,读起来速度就不是很快,又没有什么高明的办法,就只能一点一点,逐行的去阅读,而且在阅读过程中,总是会有生词出现,为了快速记忆这些生词,楼主就去找了单词相关的应用,最终形成了如下的工作流:
- 在Zotero中阅读文献的时候,对生词进行着色,楼主选择了红色,短语选择的颜色为蓝色。
- 导出这些生成,然后转换成逐行的格式。
- 将生词导入到不背单词App,进行艾宾浩斯的记忆,专项提高。
依赖的软件
在单词导出的过程中,主要是包含如下的软件:
- Zotero,对生词进行标记
- VS Code, 使用正则表达式对文本中生词进行处理
- 不背单词,网页,因此只要有浏览器就可以。
- 搜狗输入法,保存成短语,方便下次提取相关的正则表达式
操作步骤
拷贝Zotero中的单词

楼主在阅读论文的时候,因为最近才开始读,所以会有很多的生词,是将单个生词标记成红色的。
提取单词“pertinent”
首先是根据单词的格式提取特征,其中具体的单词及含义的格式有如下几种:
“pertinent” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=RYLAIUFP)) pertinent
英 [ˈpɜːtɪnənt]
美 [ˈpɜːrt(ə)nənt]
adj. 切题的,相关的
“implications” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=GWMLFT4K)) implications
英 [ˌɪmplɪˈkeɪʃ(ə)nz]
美 [ˌɪmplɪˈkeɪʃ(ə)nz]
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)
因此,我们首先将包含单词“pertinent”的行中,处理成仅仅包含单词内容。

pertinent
英 [ˈpɜːtɪnənt]
美 [ˈpɜːrt(ə)nənt]
adj. 切题的,相关的
implications
英 [ˌɪmplɪˈkeɪʃ(ə)nz]
美 [ˌɪmplɪˈkeɪʃ(ə)nz]
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)
去除中文行
在经过上述处理中,可以将单词提取成为单独的一行了,因此,接下来处理发音行和释义行。可以看到都有中文,因此将含有中文字符的行删除即可
propose
英 [prəˈpəʊz]
美 [prəˈpoʊz]
v. 提议,建议;提出(理论或解释);提名,推荐;计划,打算;求婚;(向立法机构或委员会)提交(动议);提议祝(酒)
[ 第三人称单数 proposes 现在分词 proposing 过去式 proposed 过去分词 proposed ]
proximity
英 [prɒkˈsɪməti]
美 [prɑːkˈsɪməti]
n. (时间、空间、关系的)靠近,亲近
本次提取的过程是将行内包含中文字符的行去除,比方说包括发音的英, 美以及中文注释
使用替换功能,使用如下正则表达式匹配包含中文字符的行
.*[\u4E00-\u9FA5]+.*

移除空行
接下来将使用vscode将空行移除

\n\s*\n
在去除了空行之后,就成了下面的样式了

经过处理后的内容,可能包含一些特殊情况,手动删除。
halving
['ha:viŋ]
amplify
susceptible
lossless
uneven
predominantly
mandates
n.
confines
intractable
如上文出现的n.、['ha:viŋ] 手动移除即可。
将这些常用的正则匹配保存进入搜狗输入法
记住,如果一个问题,你解决过一次,那很有可能,你还是会遇到同样的场景的。所以,将这些正则字符串保存起来,方便提取,是一个不错的方式。

接下来就是导入浏览器,将单词导入到不背单词。登录,然后自制词书,即可。

总结
最近自己也是疯狂的在积累单词,自己上周日刚看完了一本东野圭吾的白夜行,整理了人物关系图。在阅读paper的时候,就意识到了结构structure的重要性,所以笔者决定再次进行金字塔原理的阅读,而且我再阅读的时候,还能感受到当时我阅读Martin Fowler的《重构 改善既有代码的设计》所带给我的感动,我感觉这本书也是一个这样的书,书里面包含了深刻的洞见,等我看完再分享分享。
最近晚上睡眠的时候,睡前也会头脑风暴一下学习的单词,希望能够积累更多的生词吧,然后能够多读一些paper,2024年。
最后,我们可以在搜狗输入法中存储这些快捷键。然后以后就可以重复使用了。
快捷键 | 实际内容 | 作用 |
---|---|---|
dctq | “(\w+)”.* | 单词提取, 在替换中填$1 |
zwsc | .[\u4E00-\u9FA5]+. | 搜索中文,在替换中填空 |
khsc | \n\s*$ | 空行删除, 在替换中填空 |