工具
freepic2pdf
vscode
提取pdf标签信息
提取出两个文件。
itf文件里修改目录起始页码,如:此pdf第14页对应书籍的第一页。
将BasePage改为对应的起始页码。
txt文件内就是目录信息,接下来先要在网上(如豆瓣)找到对应书籍的目录信息,当然也可以使用OCR扫描目录生成对应文字信息。
但此格式不符合我们的需要,因此要重新格式化。
格式化目录信息
vscode打开提取出来的FreePic2Pdf_bkmk.txt文件,并将目录信息复制进去。
我们需要的格式为:
格式化后:
第一部分 标 题 9
第1章 标题 10
1.1 标题 11
1.1.1 标 题 12
几个要点:
- 章节(小节)数和章节(小节)名之间有一个空格
- 章节(小节)名和页码之间一个制表符(\t)
- 每一个子章节(小节)比上一层级多一个制表符(\t)
初始格式化
由于网络上能找到的目录格式混杂,因此直接全部初始化为基本格式。
页码
正则表达式查找
(\d{1,3})$
//行尾匹配,寻找行末有1到3个数字结尾的数字,并且括号内的为分组1
替换
\t$1
//替换为一个制表符,$1代表括号内的分组1
一级标题
一般为“第X章”。
正则查找
^(第(\d|\D)+章)
如果是“第一部分”这类格式,也可为
^(第.*部分)
替换为
$1
//$1代表括号内的第一个分组
//注意$1后有一个空格
三级标题
行头匹配,因此倒序替换(先三级标题,后二级标题,如有更多级标题也是从后往前匹配替换)。
“1.1.1”类型格式
正则匹配
^(\d+\.\d+\.\d+)
替换
\t\t$1
//三级标题有两个制表符,并且最后有一个空格
“一、二、三、”类型格式
正则匹配
^(.|..)、
替换
\t\t$1、
二级标题
正则匹配
^(\d+\.\d+)
替换
\t$1
//二级标题有一个制表符,且最后有一个空格
成品展示
合并目录标签
使用freepic2pdf,更改pdf,挂载书签。
注意如果pdf在其他软件中打开,先关闭之后再进行挂载。