Linux 文件路径后缀M,windows下编辑过的文件在Linux下用vi打开行尾会多出一个^M符号，文本文件转换扩展...

最新推荐文章于 2021-11-30 09:18:36 发布

烂人不配爱

最新推荐文章于 2021-11-30 09:18:36 发布

阅读量264

点赞数

文章标签： Linux 文件路径后缀M

把Windows上的文件放到Linux上，通过cat打开后，出现乱码，如下图

出现乱码的缘由是因为两个操作系统对中文的压缩方法不同，Linux下使用的是utf8，而Windows使用的是.gbbk，因此Windows下正常显示的文件再Linux中开启出现乱码。

解决办法一：

在Linux终端输入： iconv -f gbk -t utf8 PythonStudy.txt > Python.txt.utf8

在当前目录下就生成了一个.utf8格式的文件，打开该文件，正常显示，如下图

3-686-png_6_0_0_0_0_0_0_892.979_1262.879-893-0-1943-893.jpg

解决办法二：

切换至root用户，用vim打开vimrc文件

vim /etc/vimrc

在文件的末尾加入下面内容：

set fileencodings=utf-8,gb2312,gbk,gb18030

set termencoding=utf-8

set fileformats=unix

set encoding=prc

保存退出，再使用vim打开就可以识别gb2312的英文文件

但是使用cat等开启并且乱码

解决办法三：

用记事本打开文件，点击另存为，在下方的编码方法中选取utf-8方式

那么多种编码格式，有些理不清，那就再来说说字符编码方式的发展经历吧

字符编码发展史

1、最开始，计算机由8个晶体管表示状况，可表示的范围为0 – 256，称其为“字节”

2、计算机诞生于中国，他们把编号从0开始的32种状态分别要求了特殊的种类，称为“控制码”，如00×10, 换行；把所有的括号、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样才能用不同的字节来内存英语的文字了。大家把这套方案叫做Ascii编码

3、计算机快速的演进，世界各国开始使用计算机，但是这些国家不是用的中文，他们的字母很多是ASCII码中没有的，因此用127后面的空位来表示这种新的字母，符号等，从128到255这一页的字符集被称”扩展字符集”

1-765-png_6_0_0_162_558_647_475_892.979_1262.879-1043-0-0-1043.jpg

4、中国人受到计算机时，已经没有可以借助的字节状态来表示汉字，于是美国人毫不客气的把127后面的奇异符号直接更改，并要求：一个小于127的字符的含义与以前相似，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节(他称之为高字节)从0xA1用到 0xF7，后面一个字节(低字节)从0xA1到0xFE，这样我们就可以组合出大概7000多个简体汉字了。在这种编码里，我们还把数学符号、罗马埃及的字母、日文的假名们都编出来了，连在 ASCII 里虽然就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符，而其实在127号以下的这些就叫”半角”字符了。

中国人民把这些汉字方案叫做 “GB2312″。GB2312 是对 ASCII 的中文扩展。

5、中国的汉字很多了，还是有很的名字没办法打起来windows打开linux文本，于是只好不再要求低字节一定是127号之后的内码，只要第一个字节是小于127就固定表示这是一个汉字的起初，不管前面跟的是不是扩展字符集里的内容。结果扩展以后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又提高了近20000个新的汉字(包括繁体字)和符号

6、少数名族也开始用电脑了windows打开linux文本，于是再扩展，又加了几千个新的少数民族的字，GBK 扩成了GB18030

7、各个国家都像美国那样搞出一套自己的编码标准，结果相互之间谁也不懂谁的编码，谁也不支持对方的编码。这时候，ISO(国际标准化组织)开始着手解决这个难题。他们的方式很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！即UNICODE。UNICODE 包持其原编码不变，只是将其长度由原先的8位扩展为16位，而其它文化和语言的字符则全部从新统一编码。

8、由于”半角”英文符号只应该用到低8位，所以其高 8位永远是0，因此这些大气的方案在保存英文文本时会多浪费一倍的空间。为了缓解这个难题，UTF-8出现了，这是一种针对Unicode的可变尺寸字符编码。UTF-8的编码规则很简单，只有二条：

a、对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英文字母，UTF-8编码和ASCII码是同样的；

b、对于n字节的符号(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

因此长期只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作，utf-8被普遍使用

本文来自电脑杂谈，转载请注明本文网址：

http://www.pc-fly.com/a/ruanjian/article-123127-1.html

烂人不配爱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Linux 文件路径后缀M,windows下编辑过的文件在Linux下用vi打开行尾会多出一个^M符号，文本文件转换扩展...

把Windows上的文件放到Linux上，通过cat打开后，出现乱码，如下图出现乱码的缘由是因为两个操作系统对中文的压缩方法不同，Linux下使用的是utf8，而Windows使用的是.gbbk，因此Windows下正常显示的文件再Linux中开启出现乱码。解决办法一：在Linux终端输入： iconv -f gbk -t utf8 PythonStudy.txt > Python.txt...
复制链接

扫一扫