LINUX中文字符集问题

本文详细介绍了Linux系统中遇到的中文字符集问题,包括ASCII、GB2312、GBK、GB18030、UTF-8等编码标准,以及在Linux中如何通过locale设置字符集环境,如LC_ALL、LANG和LC_CTYPE等变量。文中提到了Windows XP与Linux之间数据传输可能出现的乱码情况,并提供了调整字符集以避免乱码的方法。
摘要由CSDN通过智能技术生成
LINUX中文字符集问题

最近,公司在XP系统于LINUX之间传数据时出现了中文乱码问题!

首先,解释一下字符集:
汉字编码:
* GB2312字集是简体字集,全称为GB2312(80)字集,共包括国标简体汉字6763个。     
* BIG5字集是台湾繁体字集,共包括国标繁体汉字13053个。     
* GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号,共包括21003个字符。     
* GB18030是国家制定的一个强制性大字集标准,全称为GB18030-2000,它的推出使汉字集有了一个“大一统”的标准。

ASCII: American Standard Code for Information Interchange,美国信息交换标准码。     
目前计算机中用得最广泛的字符集及其编码,由美国国家标准局(ANSI)制定。     
它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。   
 
ASCII字符集由控制字符和图形字符组成。     
在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。      所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。      奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1。     
偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。

UTF: Unicode 的实现方式不同于编码方式。      一个字符的Unicode编码是确定的,但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。      Uni
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值