Linux 文件路径后缀M,windows下编辑过的文件在Linux下用vi打开行尾会多出一个^M符号,文本文件转换扩展...

1-810-jpg_6-1080-0-0-1080.jpg

把Windows上的文件放到Linux上,通过cat打开后,出现乱码,如下图

4822452a31502c559fb29c0a15e8f299.png

出现乱码的缘由是因为两个操作系统对中文的压缩方法不同,Linux下使用的是utf8,而Windows使用的是.gbbk,因此Windows下正常显示的文件再Linux中开启出现乱码。

解决办法一:

在Linux终端输入: iconv -f gbk -t utf8 PythonStudy.txt > Python.txt.utf8

在当前目录下就生成了一个.utf8格式的文件,打开该文件,正常显示,如下图

3-686-png_6_0_0_0_0_0_0_892.979_1262.879-893-0-1943-893.jpg

1981c4627b99933b57c3bbbc8d0809c4.png

解决办法二:

切换至root用户,用vim打开vimrc文件

vim /etc/vimrc

在文件的末尾加入下面内容:

set fileencodings=utf-8,gb2312,gbk,gb18030

01300000170442121176606961573.jpg

set termencoding=utf-8

set fileformats=unix

set encoding=prc

保存退出,再使用vim打开就可以识别gb2312的英文文件

但是使用cat等开启并且乱码

解决办法三:

956f48a2f5717781bd7fe1aea6cfb632.png

用记事本打开文件,点击另存为,在下方的编码方法中选取utf-8方式

那么多种编码格式,有些理不清,那就再来说说字符编码方式的发展经历吧

字符编码发展史

1、最开始,计算机由8个晶体管表示状况,可表示的范围为0 – 256,称其为“字节”

2、计算机诞生于中国,他们把编号从0开始的32种状态分别要求了特殊的种类,称为“控制码”,如00×10, 换行;把所有的括号、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这样才能用不同的字节来内存英语的文字了。大家把这套方案叫做Ascii编码

3、计算机快速的演进,世界各国开始使用计算机,但是这些国家不是用的中文,他们的字母很多是ASCII码中没有的,因此用127后面的空位来表示这种新的字母,符号等,从128到255这一页的字符集被称”扩展字符集”

1-765-png_6_0_0_162_558_647_475_892.979_1262.879-1043-0-0-1043.jpg

4、中国人受到计算机时,已经没有可以借助的字节状态来表示汉字,于是美国人毫不客气的把127后面的奇异符号直接更改,并要求:一个小于127的字符的含义与以前相似,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到 0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大概7000多个简体汉字了。在这种编码里,我们还把数学符号、罗马埃及的字母、日文的假名们都编出来了,连在 ASCII 里虽然就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的”全角”字符,而其实在127号以下的这些就叫”半角”字符了。

中国人民把这些汉字方案叫做 “GB2312″。GB2312 是对 ASCII 的中文扩展。

5、中国的汉字很多了,还是有很的名字没办法打起来windows打开linux文本,于是只好不再要求低字节一定是127号之后的内码,只要第一个字节是小于127就固定表示这是一个汉字的起初,不管前面跟的是不是扩展字符集里的内容。结果扩展以后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又提高了近20000个新的汉字(包括繁体字)和符号

6、少数名族也开始用电脑了windows打开linux文本,于是再扩展,又加了几千个新的少数民族的字,GBK 扩成了GB18030

7、各个国家都像美国那样搞出一套自己的编码标准,结果相互之间谁也不懂谁的编码,谁也不支持对方的编码。这时候,ISO(国际标准化组织)开始着手解决这个难题。他们的方式很简单:废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!即UNICODE。UNICODE 包持其原编码不变,只是将其长度由原先的8位扩展为16位,而其它文化和语言的字符则全部从新统一编码。

8、由于”半角”英文符号只应该用到低8位,所以其高 8位永远是0,因此这些大气的方案在保存英文文本时会多浪费一倍的空间。为了缓解这个难题,UTF-8出现了,这是一种针对Unicode的可变尺寸字符编码。UTF-8的编码规则很简单,只有二条:

a、对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英文字母,UTF-8编码和ASCII码是同样的;

b、对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

因此长期只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作,utf-8被普遍使用

本文来自电脑杂谈,转载请注明本文网址:

http://www.pc-fly.com/a/ruanjian/article-123127-1.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值