Apache-Tika解析PDF文档

通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下:

 1 package com.mengyao.tika.app;
 2 
 3 import java.io.File;
 4 import java.io.FileInputStream;
 5 
 6 import org.apache.tika.metadata.Metadata;
 7 import org.apache.tika.parser.ParseContext;
 8 import org.apache.tika.parser.pdf.PDFParser;
 9 import org.apache.tika.sax.BodyContentHandler;
10 
11 public class PDFApp {
12 
13     public static void main(String[] args) throws Exception {
14         //Tika默认是10*1024*1024,这里防止文件过大导致Tika报错
15         BodyContentHandler handler = new BodyContentHandler(100*1024*1024);
16         
17         Metadata metadata = new Metadata();
18         FileInputStream inputstream = new FileInputStream(new File("D:/Nutch入门教程.pdf"));
19         ParseContext pcontext = new ParseContext();
20 
21         // 解析PDF文档时应由超类AbstractParser的派生类PDFParser实现
22         PDFParser pdfparser = new PDFParser();
23         pdfparser.parse(inputstream, handler, metadata, pcontext);
24 
25         // 获取PDF文档的内容
26         System.out.println("PDF文档内容:" + handler.toString());
27 
28         // 获取PDF文档的元数据
29         System.out.println("PDF文档元数据:");
30         String[] metadataNames = metadata.names();
31 
32         for (String name : metadataNames) {
33             System.out.println(name + " : " + metadata.get(name));
34         }
35 
36     }
37 
38 }

 

转载于:https://www.cnblogs.com/mengyao/p/4932769.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值