文件转码

先用这个命令把非utf-8编码的文件列出来

               find /home/wwwroot -type f |xargs file -i {}\;|grep -v "utf-8" >/home/shell/code.txt

然后再按名单上最后的编码提示来修改


最近遇到服务器网站的目录下的所有文件的编码全是gb2312,直接用cat或者vim打开显示都是乱码,网页显示出来当然也全是乱码,所以要解决怎么把目录下的所有文件(包括子文件夹里的文件)由gb2312转码成utf-8的问题。网上一顿搜,总共用了三种方法,最后终于把问题解决了。

 

第一种方法是利用vi编辑器,打开需要转码的文件。

:set fileencoding

这样可以查看文件当前的编码格式。

:set fileencoding=utf-8

说这样能把当前的文件转码成utf-8。但是失败了,直接打开还是显示乱码,更别说浏览器浏览的页面了。而且即使能转码成功,站点目录下的文本文件那么多,不可能一个个挨个打开然后这样设置吧,工作量巨大。

 

第二种方法是利用iconv。iconv系统默认就已经安装了的。通过命令:

Shell代码   收藏代码
  1. iconv -f gb2312 -t utf-8 abc.html  

这样确实把abc.html的编码转换成了utf-8。这样是将转换后的文本显示在了终端上,也可以:

Shell代码   收藏代码
  1. iconv -f gb2312 -t utf-8 abc.html -o abc.html  

用转码后的文件覆盖原文件,毕竟这才是最后想达到的目的。

 好了,现在就可以对整个目录下(包括子目录下)的所有文本文件进行转码了:

Shell代码   收藏代码
  1. find -type f -name "*.html" -exec iconv -f gb2312 -t utf-8 {} -o {} \;  

通过-exec将find命令的每个结果带入后面iconv的{}内,转换css和javascript文件类似。但是悲剧的是输出很多错误提示。大概就是非法输入,也就是很多html文件里面的字符不对,用iconv转码出现错误。寻思大概不是所有的html文件的编码都是gb2312,所以把-f gb2312这个参数去掉,变成这样:

Shell代码   收藏代码
  1. find -type f -name "*.html" -exec iconv -t utf-8 {} -o {} \;  

 但是遗憾的是错误依旧。所有用iconv这种办法还是行不通。

 

第三种方法是用enca。Centos默然没有安装enca,先下载然后安装:

Shell代码   收藏代码
  1. wget http://pkgs.repoforge.org/enca/enca-1.10-1.el6.rf.x86_64.rpm  

 安装:

Shell代码   收藏代码
  1. rpm -ivh enca-1.10-1.el6.rf.x86_64.rpm  

enca的用法:
enca -L zh_CN file    #查看file的编码格式
enca -L zh_CN -x UTF-8 file   #将file转换成utf8的编码格式
enca -L zh_CN -x UTF-8 file1 file2   #转换之后存成file2文件,不覆盖file1
好了,接下来就是将目录下的所有文本文件转成成utf8格式: 

Shell代码   收藏代码
  1. find -type f -name "*.html" -exec enca -L zh_CN -x UTF-8 {} \;  

这样转换以后发现只有一两个文件显示原文件由于未知格式转码失败,其它的的html文件都转码成功了,哈哈。接下来就是将htm,css,js后缀的文件也用同样的办法进行转码就行了。哎,问题可算解决了。


### 回答1: 文件转码为txt utf-8 是指将一个文件的编码格式转换为 UTF-8 编码,以便可以正确地在各种操作系统和软件中进行读取和处理。下面是实现这个转码过程的步骤: 1. 确定原始文件的编码格式:在转码之前,需要确定原始文件的编码格式。可以通过打开文件并查看文件属性或使用专门的工具来确定编码格式。 2. 创建一个新的空白文本文件:打开一个文本编辑器或记事本软件,并创建一个新的空白文本文件。 3. 打开原始文件:使用文本编辑器或记事本软件打开原始文件。 4. 将原始文件的内容复制到新文件中:选中原始文件中的所有内容,复制并粘贴到新的空白文件中。 5. 将新文件的编码格式设置为 UTF-8:在文本编辑器或记事本软件中,找到文件编码选项,并将它设置为 UTF-8。 6. 保存新文件:使用新的文件名保存新文件,确保文件后缀为 .txt。 7. 关闭原始文件和新文件:关闭原始文件和新文件,以确保更改保存。 8. 文件转码完成:经过上述步骤,原始文件已经成功转码为 UTF-8 编码的新文本文件。 通过这些步骤,我们可以将原始文件转码为 UTF-8 编码的 txt 文件,这样可以确保文件在不同操作系统和软件中的可读性和兼容性。 ### 回答2: 文件转码为UTF-8格式,可以使用各种文本编辑器或编程语言实现。下面以Python代码示例进行说明。 假设我们有一个名为input.txt的文本文件,编码为其他格式(例如GBK),我们希望将其转码为UTF-8格式,然后保存为output.txt。 首先,我们需要读取原始文件的内容。可以使用Python的open函数打开文件,并指定相应的编码格式,例如: ```python with open('input.txt', 'r', encoding='GBK') as f: content = f.read() ``` 然后,我们可以将读取到的内容以UTF-8编码进行编码,使用encode方法即可实现: ```python content_utf8 = content.encode('utf-8') ``` 接下来,我们可以将编码后的内容写入新的文件output.txt中,同样使用open函数,并指定编码为UTF-8: ```python with open('output.txt', 'w', encoding='utf-8') as f: f.write(content_utf8.decode('utf-8')) ``` 以上代码将原始文件内容以UTF-8编码格式写入output.txt中,完成了文件转码过程。 需要注意的是,在转码过程中,我们首先读取原始文件的内容时,要确保使用的编码格式与实际格式一致;在写入编码后的内容时,也要确保所指定的编码格式与输出文件的要求一致。 以上就是将文件转码为UTF-8格式的过程,你可以根据实际需求进行相应的更改和调整。 ### 回答3: 文件转码为UTF-8是一种常见的操作,用于将文件的编码格式从其他编码转换为UTF-8编码。UTF-8是一种通用的编码格式,能够支持几乎所有的字符和符号。 文件转码的过程可以通过多种方式完成,其中一种简单的方法是使用文本编辑软件。首先,打开需要转码文件,然后选择“另存为”或者“导出”选项。在保存文件的对话框中,一般会出现编码格式的选项,选择UTF-8作为新的编码格式,然后保存文件即可。 除了使用文本编辑软件,还可以使用命令行工具进行文件转码。在命令行中,使用类似以下的命令可以实现文件转码: ``` iconv -f old_encoding -t utf-8 input_file -o output_file ``` 其中,old_encoding表示原始文件的编码格式,input_file表示需要转码文件,output_file表示转码后保存的文件文件转码为UTF-8的过程可以处理多种文件类型,包括文本文件、代码文件、配置文件等。转码后,文件中的内容将会以UTF-8编码的形式进行存储,确保了文件的可读性和兼容性。 文件转码为UTF-8非常重要,因为UTF-8编码可以在不同的操作系统和平台上被广泛支持。同时,UTF-8编码也能够处理各种不同语言的字符和符号,确保了文件中内容的正确显示和处理。 综上所述,文件转码为UTF-8是一种常见的操作,可以使用文本编辑软件或者命令行工具实现。转码后的文件使用UTF-8编码,能够支持各种字符和符号,提高了文件的可读性和兼容性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值