拿到一个没有目录的pdf,因为实在太不爽……所以想有没有办法自动化的方法可以生成目录QUQ,查了查果然acrobat有js的api可以提供,但是写完之后发现只能在acrobat上面能索引QUQ,其他的阅读器都不能用索引……只能看见目录……真真不爽!!(*  ̄︿ ̄)
先说下思路吧……挺傻的……一般当当这样卖书的地方都有书的目录和页码,这个很好找的嘛。然后copy到txt里,先用python把它变成数组(因为懒所以都是一级的目录),然后用js脚本添加数组做成目录。
python:
#usr/bin/env python
#-*- coding:utf-8 -*-
import re, sys
reload(sys)
sys.setdefaultencoding('utf8')
filename = "catagory.txt"
output = "result.txt"
file = open(filename, "r")
out = open(output, "w")
ret = "["
pat = re.compile(r'(.*?)(\d{1,4}$)')
for line in file.readlines():
try:
tmp = re.findall(pat, line)
print tmp[0][0], tmp[0][1]
ret += "['" + tmp[0][0].strip() + "', " + tmp[0][1] + "],\n"
except:
re