本周进度
整体思路
处理选中的文件,输出识别后的文本文件,手动选择方式和指定路径;
前后端分离,分别实现,便于调试;
后续继续设计如何对输出的文本进行分类和有效提取。
pyqt前端设计
包含的主要功能有选择代码语言,选择输入文件和输出路径;使用python语言完成对pyqt的调用,其他的具体功能用java实现,python调用jar包执行其功能。
概念图:
后期会继续完善,会有修改。
tika试用
使用tika提供的ui试用了它的文件提取功能,但是还未能与pyqt的前端相连接;目前的思路是导入jar包,前端调用,但是总觉得这样好像没有完全实现前后端的分离;下周会照这个思路做,但是如果有更好地解决方案,可以替代之。
ocr试用
同tika一样,没有与前端连接,只是尝试了它的提取功能。
下周目标
完善逻辑
具体的输入输出还需斟酌,我负责的功能是一个方面,重在与队友配合;对前端界面调用后端的方式进行优化。
实现对tika和ocr的调用
目前前后端还不能正确地完成配合满足需求,目标是对tika和ocr的调用可以全部在前端准确完成。
能够选中和输出文件
在实现调用的基础上,要能够将指定的文件经过相应的处理后输出到指定路径,便于队友对其进行后续的处理;
目前的思路是输出txt文件,以后再对其进行处理,分离出代码和文本并分别存储。