java删除utf-8的BOM空字符

java(安卓)删除移除清除utf-8的bom文件头空字符的代码。近日写一个安卓软件,碰到了一个问题。在电脑上win7下建立一个txt文件,里面写上"abc",不含双引号。然后点击[文件]-[另存为],在弹出的另存为对话框上找到编码的选项,编码设置为utf-8保存。把这个utf-8格式的txt文件拷贝到安卓手机上。

写了一个安卓app用FileInputStream这个方法读取txt内容。假设赋值给字符串 str ,那么str.length()正常情况下应该等于3对吧。其实不是,这里却等于4,即使用system.out.print()函数将str打印出来,肉眼可见的仍然只有abc三个字符。其实这就是utf-8的bom文件头,有一个不可见的字符在abc的前面。这个字符不是空格,空格肉眼还可以分辨,但这个字符看上去就不存在。

解决办法很简单 1.不用代码的方式:用winhex之类的十六进制编辑器打开这个txt文件并删除开头的“EF BB BF”.

2.用java代码的方式,网上找了很多,有说用第三方库的,有说删除首字符串的,都不靠谱。这么简单一个需求不至于再加载一个第三方库呢。删除首字符也不可取,因为这个bom空字符可以存在于文件头,也可以存在于文件中任何地方,不信你可以用十六进制编辑器把“EF BB BF”插入到文件的任何地方(如果文件含中文注意插入的时候别把中文的两个字节码分开了,如果是英文无所谓),文件都能正常打开且这个字符不可见,所以傻傻的删除首字符只能解决部分问题。我们需要的是一个能删除所有bom的代码,不仅限于文件或字符串开头。所以自己写了如下代码,亲测可用!

public String shanchuUTF8bom(String s)  
    {
        char[] tmp=s.toCharArray();
        String xinstring="";
        for(char c:tmp)
        {
            if((int)c!=65279)
            {             
                xinstring=xinstring+c;
            }
        }
        return xinstring;
    }



//调用方法,例如需要删除bom空字符的字符串是 str 

str = shanchuUTF8bom(str) 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值