unicode 的简介:
unicode 又称为万国码、国际码、统一码;是计算机业界编码的标准;这个unicode 对世界的绝大部分的语言常用的字符
进行编码、整理,让所有的语言可以在计算机上显示、呈现。
比如我们汉语中的每一个常用的汉字都有唯一一个unicode 编码来对应,这样所有的中文数据可以全部用unicode来转换,在不计算机上正常线上中文
unicode是任何一个字符都是用2个字节16个bit位来定义的,总共可以定义:2 ^16 = 65535 个字符,基本足够世界所有语言的常用字符了。【中文常用的汉字就2500个】
unicode 的编码方式:
上面的这种用16个bit(2个字节)来给字符(中文、英文、韩、日。。。) 来进行唯一编码就是unicode的编码方式;unicode的编码方式也有多种:
- 常用的上面的ucs-2:最常用的2个字节16bit位来统一编码字符
- ucs-4:用4个字节32位bit来统一编码字符 ---->现在还不普及
unicode的实现方式:
因为我们默认的unicode的编码方式是2个字节的,所有任何一个字符都是唯一、确定的一个unicode 编码来对应;但是在字符传输过程中,由于不同的系统平台设计的不同,
以及出于节省空间的目的,对unicode的实现方式不同。unicode的实现方式称为:unicode转换格式(Unicode Transformation Format) 简称UTF
utf-8 编码:
utf-8的编码方式是是一种针对Unicode的可变长度字符编码,又称万国码;是最流行的一种编码,中文时我们最好用这种编码
中文乱码解决方案
LANG的变量的值
一般正常的编码的环境变量:
$echo $LANG
en_US.UTF-8 #英文的UTF-8
#如果我们显示中文,需要改为:
export LANG=zh_CN.UTF-8
#用locale 来查看是否修改成功
查看file是什么编码类型:
vim file
:set fileencoding #显示文件的编码类型,然后把这个编码类型加到 ~user/.vimrc
修改 .vimrc 来正确显示中文
echo "set fencs=utf-8,gbk,cp936" |tee -a ~/.vimrc && export LANG=zh_CN.UTF-8 #查看file的编码类型是cp936 就把它加到.vimrc中