1、编码语系转换
编码是信息从一种形式转换成另一种形式的过程,有一定的编码格式、规则,那么在解码时,如果格式有误,就会出现常见的乱码现象。常见的中文编码语系有gb2312、big5、gbk、utf8等,有时出于某种目的,一个文件要在不同的编码语系间转换,用
iconv命令即可(convert text from one character encoding to another)。
查看已知的编码语系:“iconv -l”,使用了选项“-l”。
转换编码语系:“iconv -f encoding -t encoding filename [-o file]”,“-f”表示原编码格式,"-t"表示目标编码格式,“-o”表示stdout到文件,filename即要处理的文件。
还有一个好用的命令为
file,可查看与文件相关的信息,如文件类型、编码格式、换行符等等。
2、换行符转换
不同的操作系统下,换行符说法不同,如换行符newline,回车符return,Windows与Linux的换行符就不同,前者是“\r\n”(^M$),即CRLF,后者是“\n”($),即LF,Mac OS为“\r”(^M),即CR,Windows与Linux两者可通过命令
unix2dos或
dos2unix互相转换。
Linux转Windows:“unix2dos filename”
Windows转Linux:“dos2unix filename”
另外,文件的换行符、Tab等可通过命令
cat查看:“cat -A filename”