linux中文乱码，字符集和编码

最新推荐文章于 2024-09-11 16:06:47 发布

Asiazj

最新推荐文章于 2024-09-11 16:06:47 发布

阅读量6.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L2009430167/article/details/44626503

版权

昨天用户提出了个bug，一直没空解决，今天便想抽空看看，服务器上log文件中的汉字一片乱码，平时log中汉字较少，也没多大用处，也没当回事，这次是ws报错，与别的系统交互，汉字较多，这可头疼了，正找不到错误原因呢，出现一堆乱码，第一感觉就是先搞定乱码再说（虽然事后证明这部分信息完全没用）：

连接应用服务器用的是Secure CRT工具：

#echo $LANG 结果输出: en_US.UTF-8,编码的确也是UTF-8，没错，难道是en_US有问题，不应该啊，病急乱投医，管他呢，先改了再说

#LANG=“zh_CN.UTF-8”,但是文件依旧是乱码。好生郁闷。

最憋屈的是最后结果竟然是Secure CRT没有设置好，在工具的Appearance中设置一下字符集编码就好了

补充两点：

1：en_US.UTF-8和zh_CN.UTF-8的区别：

两个都表示，系统编码是UTF-8,但是en_US表示是美国人在美国地区使用，也就是说系统中的一些有地域性差别的点都要按老美的习惯来显示，比如时间、数值等

zh_CN.UTF-8表示是中国人在中国使用，同理，要按中国的习惯来说显示。

2：字符集和编码的关系

都知道Java采用unicode字符集，那么他与ascii，ansi，iso-8859，utf-8都有什么关系呢，查阅了一些资料，总结如下（个人理解，很可能有不对指出）

最初老美用一个字节（8个二进制位）来表示一个字符，老美的字母数字少，1个字节够还用不完就把所有字符表示完了（值用了7个），但是随着发展，其他地区的人也要用，于是各自把剩下的一个二进制位派上用场，也就是对ascii进行各式各样的扩展，其中出名的是iso-8859-1和gbk，这些编码机统称为ansi，后来为了统一，便有了unicode，利用两个字节来表示一个字母，这样以来世界各地的字符都可以统一表示了，但是unicode只是个字符集，并有着自己的不足，后来便用utf-8来对其进行编码，当然也有不常用的utf-16，32等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。