对于非结构化的excel文档中的图片以及文字信息抽取。
步骤如下:
1.先将xls文件另存为xlxs文件(另存为!),如果已经是xlsx则不需要
2.将xlxs文件改后缀名为rar
3.解压缩
你会得到该excel的一个底层文件包目录格式如下:
打开其中xl文件,主要的信息都在该文件夹中,其目录结构如下:
这里推荐xml文件查看器:
----------------------------------------------以下先介绍文字提取相关--------------------------------------------------
其中sharedString.xml文件对应excel中的文本信息:
这相当于一个数组,每个数组元素里面存储了文字信息
在worksheet文件夹中(只介绍只有一个sheet的情况):
sheet1.xml文件中的sheetData row里面的最底层v则是上面提到的文字数组,0便是数组的索引:
在这个xml文件中也有文字的位置信息。以上便是文字提取相关文件,下面介绍提取图片相关。
----------------------------------------------以下介绍图片提取相关----------------------------------------------------
在xl文件中,有一个media文件:
该media文件则存放的是以image开头的图片形式(这里因工作原因不方便展示)。
在xl文件中,有drawing文件:
打开_rels会得到drawin1.xml.rels:
打开会看到很多<Relationship>
在每一个<Relationship>中
有一个唯一得rId与之前media中的image相对应。
而在drawing1.xml中就是靠rId与图片相对应,我们在该xml文件中搜索rId1(使用ctrl+f搜索)结果如下:
其中xdr:from是该图片从哪一行哪一列开始
xdr:to是图片到哪一行哪一列结束
知道这些对应信息以及图片的对应关系,我们就可以对半结构化excel中的图片与文字进行匹配。