UTF-8带BOM和不带BOM的转换

UTF-8带BOM和不带BOM的转换

标签:Linux UTF-8 BOM


【问题】

在linux下如果你使用过的编码不是utf-8你可以使用enca进行转换,然而转换过后的情况是不带bom的uft-8,在windos下我们的编译器采用了msvc2015,而msvc2015不能很好的识别不带bom的utf-8,搞得每次都得使用notepad++打开然后再进行编码转换,可是文件千千万万个...

【分析问题】

根据上面的情况,我们可以将这个问题分为两个子问题进行解决:
问题1.UTF-8带BOM和不带BOM有什么区别?
问题2.UTF-8带BOM和不带BOM的转化?

【解决-问题1:UTF-8带BOM和不带BOM有什么区别?】

(1)打开notepad++,输入123
(2)菜单栏选择 编码-转为UTF-8无BOM编码格式并进行保存
(3)菜单栏选择 插件-HEX-Editor-view in HEX (关于插件HEX-Editor的安装可以直接使用插件管理进行安装,unix下面可以直接使用xxd查看)
(4)可以看到
no_bom.png

(5)退出view in HEX
(6)菜单栏选择 编码-转为UTF-8编码格式并进行保存
(7)重复步骤(3)(4)可以看到
bom.png
Ok,这就知道它们在编码的区别了,理论上的区别呢? 请进行移步到:https://en.wikipedia.org/wiki/Byte_order_mark 进行查看.

【解决-UTF-8带BOM和不带BOM的转化?】

废话不多说,利用Linux(笔者此处测试的环境为:Ubuntu12.04)的主要代码如下:

#clear bom
sed -i  '1s/^\xef\xbb\xbf//' “$你的输入文件,如:mian.cpp”

#add bom
sed -I  '1s/^/\xef\xbb\xbf&/' “$你的输入文件,如:mian.cpp”

笔者为了处理一个文件夹下面的代码源文件(.cpp,.h)用了一个函数,当然你也可以直接使用find.

完整代码如下:

#!/bin/bash
add_bom()
{
    for i in `ls $1`
    do
        current_path=$1/$i
        if [ -d $current_path ]   
        then
            change_code $current_path
        else
          if [ "${current_path##*.}" = "cpp" ] || [ "${current_path##*.}" = "h" ];then
               #clear bom
               sed -i  '1s/^\xef\xbb\xbf//' $current_path

               #add bom
               sed -I  '1s/^/\xef\xbb\xbf&/' $current_path
          fi
        fi
    done
}

current=`pwd`
add_bom $current

至此完成,关于直接采用find,待后续有需要再进行补充吧。

转载于:https://www.cnblogs.com/hejianglin/p/6683074.html

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值