由于编码原因,在sublime等编辑器打开的文件中文出现乱码,需要将文件的编码格式修改为UTF-8
1、进入需要修改文件目录
//方法一:修改目下所有文件编码格式
find * -exec sh -c "enconv -L zh_CN -x UTF-8 {}" \; //注意后面的结束标示 " \;"
//方法二
mkdir output
find *.txt -exec sh -c "iconv -f GB2312 -t UTF-8 {} > output/{}" \;
注:
查看文件的编码格式命令
enca filename
常见的编码格式
一、ANSII编码
作为最早的编码方法,ASCII是最基础的编码方法。ASCII码最早只有后7位可以使用,被编码成指令、标点、数字与英文字母,因此这种编码方法叫做"American Standard Code for Infomation Intechange"。由于其它国家使用ASCII码时不存在本国家的字母符号,因此ASCII码发生了扩展,最高一位也用来编码。于是将128到255的编码称为“扩展字符集”。
二、GB2312
GB2312是对ASCII编码的中文扩展。为了表示汉字,决定不使用ASCII码的扩展字符集,而将128到255的内容进行重新编码,并用两个字节来表示汉字。因此0~127的意义不变,当两个大于128的字节放在一起时就表示一个中文,其中高字节用0xA1~0xF7编码,低字节用0xA1~0xFE。在这些编码中,还包括数字符号、罗马字母、希腊字母以及日语的假名。对于标点符号