今天处理的一个文件里面中文都变成了形如”\xe4..."的十六进制编码,其他字符正常。
大致研究了下发现这些编码三个一组表示一个汉字,由于文本中夹杂着正常符号,我决定用正则匹配方式将三个一组的十六进制码字符串替换为其代表的汉字。
输入文件内容如:
#\xE5\xBE\xAE\xE6\x84\x9F\xE8\xB0\xA2##\xE6\x8A\xA5\xE5\x96\x9C\xEF\xBC\x9A\xE4\xBA\x91\xE6\xA3\x80\xE7\xB2\x89\xE4\xB8\x9D159\xE4\xB8\x87\xE4\xBA\x86#\xE5\x9C\xA8\xE8\xBF\x99\xE4\xB8\xAA\xE5\x91\xA8\xE4\xB8\x89\xE4\xB8\x8B\xE5\x8D\x885\xE6\x97\xB6\xEF\xBC\x8C\xE4\xBA\x91\xE6\xA3\x80\xE5\xBE\xAE\xE5\x8D\x9A\xE7\xB2\x89\xE4\xB8\x9D\xE8\xBF\x87159\xE4\xB8\x87\xE3\x80\x82\xE8\xBF\x87\xE5\x8E\xBB\xE7\x9A\x84\xE5\xA4\x9A\xE5\xB0\x91\xE4\xB8\xAA\xE6\x97\xA5\xE6\x97\xA5\xE5\xA4\x9C\xE5\xA4\x9C\xEF\xBC\x8C\xE8\xAE\xB8\xE8\xAE\xB8\xE5\xA4\x9A\xE5\xA4\x9A\xE8\xAE\xA4\xE8\xAF\x86\xE7\x9A\x84\xE4\xB8\x8D\xE8\xAE\xA4\xE8\xAF\x86\xE7\x9A\x84\xE6\x9C\x8B\xE5\x8F\x8B\xE5\