public static void main(String[] args) {
try {
//链接
InputStream resource = PdfUtils.getInputStreamByUrl("url");
//文件
// InputStream resource = new FileInputStream("C:\\Users\\wsmtec\\Desktop\\PUDD20193110Q000I03974.pdf");
PdfReader reader = new PdfReader(resource);
StringBuilder pageContent = new StringBuilder();
int pageNum = reader.getNumberOfPages();
for (int j = 1; j <= pageNum; j++) {
//读取第i页的文档内容
pageContent.append(PdfTextExtractor.getTextFromPage(reader, j));
}
//比如获取文档上的姓名
String regular = "姓名 ([\\u4e00-\\u9fa5]+)";
Pattern pattern = Pattern.compile(regular);
Matcher matcher = pattern.matcher(pageContent);
matcher.find();// 匹配字符串,匹配到的字符串可以在任何位置
String resultV
根据pdf链接|文件用正则表达式获取文档内容
最新推荐文章于 2024-05-20 18:19:40 发布