目标:
从作业中提取内容和源代码,输出到txt文件中。
要求:
1、支持多种语言,包括c,python,java等,需要手动选择;
2、对于源代码压缩包,能够直接提取出里边的代码;
3、对于实验报告,能够分别提取出正文部分和代码部分,再分别输出;
4、对于图片,能够识别并提取内容。
界面设计及功能:
要达到以上要求,需要能够选择工作模式、输入文件和输出路径。
所以界面就有了一个大概的构思:
1、选择工作模式,处理的内容是文本还是哪种语言;
2、选择输入的文件,支持全选,对文件进行处理;压缩包则解压后提取源代码,word文档则将每个doc的正文和图片分别提取,把正文区分为固定内容、提交内容和代码部分,图片则提取其中的源代码;
3、选择输出路径,提取文字后输入到txt文件中,每个文件按原来的命名规则命名,可加上适当后缀以区分。如_text、_code等。
概念图:
代码类型选择中选择代码种类,左右两个文本框显示选中的文件和处理后生成的文件,两个文件选择器选择输入的文件和输出的路径;
目前只是初步构想,后续可能会有一些变动。