1、GBK编码:用2个字节表示一个中文字符。但是遇到生僻字每个字符的右半边其实都是\,也可以通过搜索\搜到字符
比如:碶,GBK编码中右边的半边字符为5C(ue可以看),也就是“\”,我们通过搜索\也可以搜到这个字。
同样的,生僻字还有很多,比如黒、匼等等
碶=碶\
黒=黒\
匼=匼\
2、UTF-8编码:用2或3个字节表示一个中文字符。遇到生僻字不存在GBK编码的问题
3、 在某些场景,\是转义字符,如果我们不加以处理,会出现问题
解决方法:1、将字符替换,在UTF8编码时将\转换为\\或其他字符
2、字符集转换,然后处理 GBK--->UTF8 iconv -f GBK -t UTF-8 test.txt -o test1.txt
UTF-8-->GBK iconv -f UTF-8 -t GBK test2.txt -o test3.txt