OpenXLSX 中文字段读取问题

在读取excel的时候发现有些中文字段无法读取,通过把excel文件解压后对比发现,正常读取和不

能正常读取的中文字段在sharedString.xml中存储的格式有差异,取其中一个字段,如下图:

正常读取的

不能读取的

 对比可以看到其区别,然后查找openxlsx对这块的处理,通过调试代码找到代码如下:

const char* XLSharedStrings::getString(uint32_t index) const
{
    auto iter = xmlDocument().document_element().children().begin();
    std::advance(iter, index);
    return iter->first_child().text().get();
}

 通过分析代码上下文,并结合getString函数,发现其只处理了si结点的第一个子节点,所以无法

处理上图的存储格式,找到问题了,做一个兼容即可,修改后的代码如下:

const char* XLSharedStrings::getString(uint32_t index) const
{
    auto iter = xmlDocument().document_element().children().begin();
    std::advance(iter, index);

	if (!iter->first_child().empty() && !strcmp(iter->first_child().name(), "r"))
	{
		pugi::xml_node iter_r = iter->first_child();
		if (!iter_r.first_child().empty() && !strcmp(iter_r.first_child().name(), "rPr"))
		{
			pugi::xml_node iter_rPr = iter_r.first_child();
			if (!iter_rPr.next_sibling().empty() && !strcmp(iter_rPr.next_sibling().name(), "t"))
			{
				pugi::xml_node iter_t = iter_rPr.next_sibling();
				return iter_t.text().get();
			}
		}
	}

    return iter->first_child().text().get();
}

从上面代码可以看到,实际就是如果si标签下面如果是r标签,那就查找rPr标签,然后再找到t标签

即可,如果si标签下面直接是r标签,就还沿用原来的代码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值