【编解码】解码字符串中的 UNICODE 字符

前言

由于前后端交互中编码的问题,出现了这样的一串字符:

{"share_names":["\u4e2d\u6587\u8def\u5f84"]}

出现了unicode编码作为字符串内容的情况,直接用json解析的话会报错,所以在json解析前需要先进行转码,两种方案

  1. 所有的 ASCII 编码转为 UNICODE
  2. 所有 UNICODE 转为 ASCII

常规思维就是 UNICODE 转为 ASCII。

思路

UNICODE 编码占用了两个字节,所以在处理时需要使用宽字符,也就是 wchar_t 或者 wstring

特征:

UNICODE 的编码格式固定:\udddd 的形式。

步骤说明:

  1. 遍历整个字符串
  2. 发现 \\u 则读取对应的 dddd
  3. 保存 dddd 到宽字符串中。需要按照 16 进制读取。

代码

CString Unescape(const CString& csInput) {
	string input = CW2A(csInput);
	wstring wresult;
	for (size_t i = 0; i < input.length(); ) {
		if (input[i] == '\\' && input[i + 1] == 'u') {
			string code = input.substr(i + 2, 4);
			wchar_t unicode = stoi(code, nullptr, 16);
			wresult += unicode;
			i += 6;
		}
		else {
			wresult += input[i++];
		}
	}
	CString csResult;
	csResult.Format(L"%s", wresult);
	return csResult;
}

补充

如果直接使用 C++ string 构造的话,就能正确识别十六进制中文字符

#include <iostream>
using namespace std;

int main() {
    string jsonStr = "{\"share_names\":[\"\u4e2d\u6587\u8def\u5f84\"]}";

    cout << jsonStr << endl;

    cout << "≡ is the same as \u2261" << endl;
    string s("≡ is the same as \u2261");
    cout << s << endl;
}

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

欧恩意

如有帮助,感谢打赏!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值