如何将word中的图片数据获取出来,如果是通过word的接口来获取,这个暂时还没有找到,只能采用曲线救国了,通过对word的xml文档做解析,来获取word的图片数据。
你可以将word另存为xml文件以查看word中的图片数据,该数据是图片的二进制数据经由base64编码的。如下图1所示:
图1 word中图片数据在xml中的形式
现在是通过另存为xml文件的形式,要通过程序获取关键还得看word有无提供获取xml数据的接口,还好word提供了这样的接口,这样一来,解析word的图片数据就容易多了。
接下来主要就是解析xml的工作了。网上有很多开源的xml解析器(如TinyXML,Xerces等)。在这里我使用的是tinyxml,使用它主要是因为它相对其他解析器来说,要小一些,使用起来也灵活一点,最重要的一点是入手比较快。
(TinyXML下载链接:http://sourceforge.net/projects/tinyxml/)
在这里在对xml的格式做一个简单的介绍吧!
什么是XML?
XML 指可扩展标记语言(EXtensible Markup Language)
XML 是一种标记语言,很类似 HTML
XML 的设计宗旨是传输数据,而非显示数据
XML 标签没有被预定义。您需要自行定义标签。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准
一个XML文档实例
1 <?xmlversion="1.0"?>
2 <note>
3 <to>Tove</to>
4 <from>Jani</from>
5 <heading>Rem