使用GroupDocs从Java平台上的许多不同文本和表示模板中提取文本和元数据。用于Java API的解析器。支持以下模板格式:
- dotx(模板)
- dotm(Macro-enabled的模板)
- ott(OpenDocument Text模板)
- potx(模板)
- potm(Macro-enabled的模板)
- ppsm(Macro-enabled的幻灯片播放)
- pptm(Macro-enabled的演示文稿)
下面的代码示例演示了如何从模板提取文本和元数据。
// Extracting Text
void extractText(String fileName) {
// Extract a text from the file
String text = Extractor.DEFAULT.extractText(fileName);
// Print an extracted text
System.out.println(text);
}
// Extracting Metadata
void extractMetadata(String fileName) {
// Extract metadata from the file
MetadataCollection metadata = Extractor.DEFAULT.extractMetadata(fileName);
// Print extracted metadata
for (String key : metadata.getKeys()) {
// Print a metadata key
System.out.print(key);
System.out.print(": ");
// Print a metadata value
System.out.println(metadata.get_Item(key));
}
}
除此之外,解析API还支持从PDF文档中检索表格,并允许识别安全的Office Open XML文档的媒体类型-http://bit.ly/2CCy7bX
原文链接:https://dev.to//groupdocs/how-to-extract-text-and-metadata-from-text-and-presentation-templates-3l1h