背景知识:
- 我们所熟知的办公软件,如word、excel、pdf、PPT等底层都是XML结构语言写的
- 所以将文档转化为xml语言,尤其是PDF向xml转换,再进行xml信息的提取尤为重要
- 本文重点讲xml文件中信息的提取,以及PDF向XML文件的转换
参考资料:
最全的xml操作技术https://www.bilibili.com/video/BV15T4y1P7nM?p=2&vd_source=97411b9a8288d7869f5363f72b0d7613
最全的xml操作技术https://www.bilibili.com/video/BV15T4y1P7nM?p=2&vd_source=97411b9a8288d7869f5363f72b0d7613