本文概述
为了从pdf文件中提取内容, Tika使用PDFParser。 PDFParser是用于从pdf文件提取内容和元数据的类。此类位于org.apache.tika.parser.pdf包中。
它包含下表中列出的构造函数和方法。
PDFParser构造函数权限
Constructor
Description
public PDFParser()
它用于创建此类的实例。
下载PDFParser方法
Method
Description
公共Set getSupportedTypes(ParseContext上下文)
当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException
它将文档流解析为一系列XHTML SAX事件。
公共PDFParserConfig getPDFParserConfig()
它用于获取pdfparser配置。
公共无效setPDFParserConfig(PDFParserConfig配置)
用于设置pdfparser的配置
公共无效setEnableAutoSpace(布尔v)
解析器应估计单词之间应在何处插入空格。
公共布尔getExtractAnnotationText()
它提取注释中的文本。
公共无效setExtractAnnotationText(boolean v)
如果为true(默认值), 则将提取注释中的文本。
公共无效setSuppressDuplicateOverlappingText