非结构化excel文档抽取/多模态excel文档抽取,抽取图片以及文字信息,工业文档抽取

对于非结构化的excel文档中的图片以及文字信息抽取。

步骤如下:

1.先将xls文件另存为xlxs文件(另存为!),如果已经是xlsx则不需要

2.将xlxs文件改后缀名为rar

3.解压缩

你会得到该excel的一个底层文件包目录格式如下:

 打开其中xl文件,主要的信息都在该文件夹中,其目录结构如下:

这里推荐xml文件查看器:

----------------------------------------------以下先介绍文字提取相关--------------------------------------------------

 其中sharedString.xml文件对应excel中的文本信息:

这相当于一个数组,每个数组元素里面存储了文字信息

在worksheet文件夹中(只介绍只有一个sheet的情况):

sheet1.xml文件中的sheetData  row里面的最底层v则是上面提到的文字数组,0便是数组的索引:

在这个xml文件中也有文字的位置信息。以上便是文字提取相关文件,下面介绍提取图片相关。

----------------------------------------------以下介绍图片提取相关----------------------------------------------------

在xl文件中,有一个media文件:

该media文件则存放的是以image开头的图片形式(这里因工作原因不方便展示)。

在xl文件中,有drawing文件:

 打开_rels会得到drawin1.xml.rels:

打开会看到很多<Relationship>

在每一个<Relationship>中

 有一个唯一得rId与之前media中的image相对应。

而在drawing1.xml中就是靠rId与图片相对应,我们在该xml文件中搜索rId1(使用ctrl+f搜索)结果如下:

 其中xdr:from是该图片从哪一行哪一列开始

xdr:to是图片到哪一行哪一列结束

知道这些对应信息以及图片的对应关系,我们就可以对半结构化excel中的图片与文字进行匹配。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值