Python将形如”\xe4..."的十六进制编码字符串恢复为中文

今天处理的一个文件里面中文都变成了形如”\xe4..."的十六进制编码,其他字符正常。

大致研究了下发现这些编码三个一组表示一个汉字,由于文本中夹杂着正常符号,我决定用正则匹配方式将三个一组的十六进制码字符串替换为其代表的汉字。

输入文件内容如:

#\xE5\xBE\xAE\xE6\x84\x9F\xE8\xB0\xA2##\xE6\x8A\xA5\xE5\x96\x9C\xEF\xBC\x9A\xE4\xBA\x91\xE6\xA3\x80\xE7\xB2\x89\xE4\xB8\x9D159\xE4\xB8\x87\xE4\xBA\x86#\xE5\x9C\xA8\xE8\xBF\x99\xE4\xB8\xAA\xE5\x91\xA8\xE4\xB8\x89\xE4\xB8\x8B\xE5\x8D\x885\xE6\x97\xB6\xEF\xBC\x8C\xE4\xBA\x91\xE6\xA3\x80\xE5\xBE\xAE\xE5\x8D\x9A\xE7\xB2\x89\xE4\xB8\x9D\xE8\xBF\x87159\xE4\xB8\x87\xE3\x80\x82\xE8\xBF\x87\xE5\x8E\xBB\xE7\x9A\x84\xE5\xA4\x9A\xE5\xB0\x91\xE4\xB8\xAA\xE6\x97\xA5\xE6\x97\xA5\xE5\xA4\x9C\xE5\xA4\x9C\xEF\xBC\x8C\xE8\xAE\xB8\xE8\xAE\xB8\xE5\xA4\x9A\xE5\xA4\x9A\xE8\xAE\xA4\xE8\xAF\x86\xE7\x9A\x84\xE4\xB8\x8D\xE8\xAE\xA4\xE8\xAF\x86\xE7\x9A\x84\xE6\x9C\x8B\xE5\x8F\x8B\xE5\
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值