使用Apache PDFBox从一堆pdf论文中提取出作者Email地址

pdfbox是一个开源的处理pdf文档的Java工具,通过它我们可以很方便地读取分析pdf文档。项目地址是:http://pdfbox.apache.org/

我这里使用1.6.0版本,下载了fontbox-1.6.0.jar jempbox-1.6.0.jar pdfbox-1.6.0.jar pdfbox-app-1.6.0.jar。

思路就是将需要提取Email的论文放到同一个文件夹下面,然后遍历,使用正则去匹配,将匹配到的Email地址输出到某个文本文件里面。

核心代码如下:

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.util.PDFTextStripper;

public class GetEmailFromPdfsMain 
{
	public static void main(String a[]) throws IOException 
	{
		File PDFDir = new File("C:\\pdfs");
		BufferedWriter writer = new BufferedWriter(new FileWriter("C:\\pdfs\\AuthorEmails.txt"));
		if(PDFDir.isDirectory())
		{
			File[] PDFFiles = PDFDir.listFiles(); 
			for (File PDFFile:PDFFiles)
			{
				if(PDFFile.isFile())
				{
					FileInputStream fis = new FileInputStream(PDFFile);
					PDFParser p = new PDFParser(fis);
					p.parse();
					PDFTextStripper ts = new PDFTextStripper();
					ts.setStartPage(1);
					ts.setEndPage(1);
					String s = ts.getText(p.getPDDocument());
					fis.close();
					
					//^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$
					String regEx="[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+";
					
					Pattern FindEmailPattern = Pattern.compile(regEx);
					Matcher m = null;
					m = FindEmailPattern.matcher(s);
					while (m.find()) 
					{
						writer.write(m.group()+"\n");
						System.out.println(m.group());
					}
				}
			}
		}
		writer.close();
	}
}


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值