unicode utf-8 的理解

unicode 的简介:

unicode 又称为万国码、国际码、统一码;是计算机业界编码的标准;这个unicode 对世界的绝大部分的语言常用的字符

进行编码、整理,让所有的语言可以在计算机上显示、呈现。

比如我们汉语中的每一个常用的汉字都有唯一一个unicode 编码来对应,这样所有的中文数据可以全部用unicode来转换,在不计算机上正常线上中文

unicode是任何一个字符都是用2个字节16个bit位来定义的,总共可以定义:2 ^16 = 65535 个字符,基本足够世界所有语言的常用字符了。【中文常用的汉字就2500个】

     unicode 的编码方式:

上面的这种用16个bit(2个字节)来给字符(中文、英文、韩、日。。。) 来进行唯一编码就是unicode的编码方式;unicode的编码方式也有多种:

  • 常用的上面的ucs-2:最常用的2个字节16bit位来统一编码字符
  • ucs-4:用4个字节32位bit来统一编码字符 ---->现在还不普及

    unicode的实现方式:

因为我们默认的unicode的编码方式是2个字节的,所有任何一个字符都是唯一、确定的一个unicode 编码来对应;但是在字符传输过程中,由于不同的系统平台设计的不同,

以及出于节省空间的目的,对unicode的实现方式不同。unicode的实现方式称为:unicode转换格式(Unicode Transformation Format)  简称UTF

       utf-8 编码:

utf-8的编码方式是是一种针对Unicode的可变长度字符编码,又称万国码;是最流行的一种编码,中文时我们最好用这种编码


中文乱码解决方案

LANG的变量的值

一般正常的编码的环境变量:

$echo $LANG
en_US.UTF-8  #英文的UTF-8
#如果我们显示中文,需要改为:
export LANG=zh_CN.UTF-8
#用locale 来查看是否修改成功

查看file是什么编码类型:

vim file

:set fileencoding   #显示文件的编码类型,然后把这个编码类型加到  ~user/.vimrc

修改 .vimrc 来正确显示中文

echo "set fencs=utf-8,gbk,cp936" |tee -a ~/.vimrc && export LANG=zh_CN.UTF-8  #查看file的编码类型是cp936 就把它加到.vimrc中


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值