我正在尝试使用poi-scratchpad-3.8(HWPF)读取Microsoft Word 2003文档(.doc)。我需要逐字读取文件,或逐字读取文件。无论哪种方式都适合我需要的。一旦我阅读了字符或单词,我需要获取应用于单词/字符的样式名称。所以,问题是,在阅读.doc文件时,如何获得用于单词或字符的样式名称?
编辑
我添加了我用来尝试这个的代码。如果有人想尝试这个,祝你好运。
private void processDoc(String path) throws Exception {
System.out.println(path);
POIFSFileSystem fis = new POIFSFileSystem(new FileInputStream(path));
HWPFDocument wdDoc = new HWPFDocument(fis);
// list all style names and indexes in stylesheet
for (int j = 0; j < wdDoc.getStyleSheet().numStyles(); j++) {
if (wdDoc.getStyleSheet().getStyleDescription(j) != null) {
System.out.println(j + ": " + wdDoc.getStyleSheet().getStyleDescription(j).getName());
} else {
// getStyleDescription returned null
System.out.println(j + &#