循环遍历文件夹解析PDF为TXT文件

 

public class LoadTest extends JFrame {

    public static List<File> getFileList(String strPath) {
        File dir = new File(strPath);
        File[] files = dir.listFiles(); // 该文件目录下文件全部放入数组
        if (files != null) {
            for (int i = 0; i < files.length; i++) {
                String fileName = files[i].getName();
                if (files[i].isDirectory()) { // 判断是文件还是文件夹
                    getFileList(files[i].getAbsolutePath()); // 获取文件绝对路径
                } else if (fileName.endsWith("pdf")) { // 判断文件名是否以.avi结尾
                    //获取文件绝对路径
                    String strFileName = files[i].getAbsolutePath();
                    File pdfFile = new File(strFileName);
                    PDDocument document = null;
                    try
                    {
                        // 方式一:
                        /**
                         InputStream input = null;
                         input = new FileInputStream( pdfFile );
                         //加载 pdf 文档
                         PDFParser parser = new PDFParser(new RandomAccessBuffer(input));
                         parser.parse();
                         document = parser.getPDDocument();
                         **/

                        // 方式二:
                        document = PDDocument.load(pdfFile);

                        // 获取页码
                        int pages = document.getNumberOfPages();

                        // 读文本内容
                        PDFTextStripper stripper=new PDFTextStripper();
                        // 设置按顺序输出
                        stripper.setSortByPosition(true);
                        stripper.setStartPage(1);
                        stripper.setEndPage(pages);
                        String content = stripper.getText(document);

                        CsvWriter writer = new CsvWriter(strFileName+".txt", ',', Charset.forName("GBK"));
                        writer.write(content);
                    }
                    catch(Exception e)
                    {
                        System.out.println(e);
                    }

                } else {
                    continue;
                }
            }

        }
        return null;
    }


    public static void main(String[] args) {

        getFileList("E:/新西兰/新西兰/新西兰");

    }
}

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值