刚刚结束的一个事情,仅限于完成了任务。
一、任务描述
有一个超巨型的资料性的文件,是网页上查询之后的结果,有几百页、几百笔资料,需要把里面的资料一条一条的列在一个单独立的文件里面,并且,文件用“组序号-标识-名称.pdf”来命名。
组序号由另一份Excel文件给出,每组之中有标识和名称域与超巨pdf中的相应域对应。
难点:
1、不能手工操作。不易一一对应,且不产生马虎和疏忽的错误。
2、没有长期时间。大致实测,一笔资料从信息提取、标识对应、生成新文件、按规则命名大约3分钟左右时间,1000笔资料大约50小时,每天8小时不动,大约6天,一周。一周下来,估计人也就废了。我相信这事儿没有两周干不下来。
3、不易协同作业。Excel文件规格不尽相同,且超巨pdf不便扩散,所以最好是一下子over。
二、任务分解
1、根据标识号拆分超巨pdf。这一步可以在python里用PyPDF2包完成。
2、规范Excel格式和内容。这一步在Excel里面用排序、函数和VBA足够,之后导出为csv,便于最终Delphi处理它们。
3、根据标识和名称对应并拼接资料,按标识生成单个pdf文件。由于所有资料都没有放置在数据库里,因此统一按字段当成格式文本来搜索是否有匹配。无匹配时,再巡回一次,避免标识不在指定的位置上。
三、功能片断
1、拆分超巨pdf。