java(安卓)删除移除清除utf-8的bom文件头空字符的代码。近日写一个安卓软件,碰到了一个问题。在电脑上win7下建立一个txt文件,里面写上"abc",不含双引号。然后点击[文件]-[另存为],在弹出的另存为对话框上找到编码的选项,编码设置为utf-8保存。把这个utf-8格式的txt文件拷贝到安卓手机上。
写了一个安卓app用FileInputStream这个方法读取txt内容。假设赋值给字符串 str ,那么str.length()正常情况下应该等于3对吧。其实不是,这里却等于4,即使用system.out.print()函数将str打印出来,肉眼可见的仍然只有abc三个字符。其实这就是utf-8的bom文件头,有一个不可见的字符在abc的前面。这个字符不是空格,空格肉眼还可以分辨,但这个字符看上去就不存在。
解决办法很简单 1.不用代码的方式:用winhex之类的十六进制编辑器打开这个txt文件并删除开头的“EF BB BF”.
2.用java代码的方式,网上找了很多,有说用第三方库的,有说删除首字符串的,都不靠谱。这么简单一个需求不至于再加载一个第三方库呢。删除首字符也不可取,因为这个bom空字符可以存在于文件头,也可以存在于文件中任何地方,不信你可以用十六进制编辑器把“EF BB BF”插入到文件的任何地方(如果文件含中文注意插入的时候别把中文的两个字节码分开了,如果是英文无所谓),文件都能正常打开且这个字符不可见,所以傻傻的删除首字符只能解决部分问题。我们需要的是一个能删除所有bom的代码,不仅限于文件或字符串开头。所以自己写了如下代码,亲测可用!
public String shanchuUTF8bom(String s)
{
char[] tmp=s.toCharArray();
String xinstring="";
for(char c:tmp)
{
if((int)c!=65279)
{
xinstring=xinstring+c;
}
}
return xinstring;
}
//调用方法,例如需要删除bom空字符的字符串是 str
str = shanchuUTF8bom(str)