java删除utf-8的BOM空字符

java(安卓)删除移除清除utf-8的bom文件头空字符的代码。近日写一个安卓软件,碰到了一个问题。在电脑上win7下建立一个txt文件,里面写上"abc",不含双引号。然后点击[文件]-[另存为],在弹出的另存为对话框上找到编码的选项,编码设置为utf-8保存。把这个utf-8格式的txt文件拷贝到安卓手机上。

写了一个安卓app用FileInputStream这个方法读取txt内容。假设赋值给字符串 str ,那么str.length()正常情况下应该等于3对吧。其实不是,这里却等于4,即使用system.out.print()函数将str打印出来,肉眼可见的仍然只有abc三个字符。其实这就是utf-8的bom文件头,有一个不可见的字符在abc的前面。这个字符不是空格,空格肉眼还可以分辨,但这个字符看上去就不存在。

解决办法很简单 1.不用代码的方式:用winhex之类的十六进制编辑器打开这个txt文件并删除开头的“EF BB BF”.

2.用java代码的方式,网上找了很多,有说用第三方库的,有说删除首字符串的,都不靠谱。这么简单一个需求不至于再加载一个第三方库呢。删除首字符也不可取,因为这个bom空字符可以存在于文件头,也可以存在于文件中任何地方,不信你可以用十六进制编辑器把“EF BB BF”插入到文件的任何地方(如果文件含中文注意插入的时候别把中文的两个字节码分开了,如果是英文无所谓),文件都能正常打开且这个字符不可见,所以傻傻的删除首字符只能解决部分问题。我们需要的是一个能删除所有bom的代码,不仅限于文件或字符串开头。所以自己写了如下代码,亲测可用!

public String shanchuUTF8bom(String s)  
    {
        char[] tmp=s.toCharArray();
        String xinstring="";
        for(char c:tmp)
        {
            if((int)c!=65279)
            {             
                xinstring=xinstring+c;
            }
        }
        return xinstring;
    }



//调用方法,例如需要删除bom空字符的字符串是 str 

str = shanchuUTF8bom(str) 

 

Java中,如果你有一个字符串需要转换或设置为UTF-8格式,你可以使用以下几种方式: 1. **使用`getBytes()`方法**: 将字符串转换为字节数组,然后用UTF-8编码表示: ```java String str = "你好"; byte[] utf8Bytes = str.getBytes(StandardCharsets.UTF_8); ``` 2. **使用`new String()`构造器**: 创建一个新的字符串,指定字符集为UTF-8: ```java String utf8Str = new String(utf8Bytes, StandardCharsets.UTF_8); ``` 3. **使用`StringCodingUtil`工具类** (假设存在这样的工具类): 若项目中有类似功能的工具类,可以利用它简化操作: ```java import com.example.utils.StringCodingUtil; String utf8Str = StringCodingUtil.convertToUtf8(str); ``` 4. **编码文件或输入流**: 对于从文件或网络读取的字符串,先读取到字节流,再转换: ```java File file = new File("path_to_file"); FileInputStream fis = new FileInputStream(file); byte[] bytes = IOUtils.toByteArray(fis); // 使用Apache Commons IO库 fis.close(); String utf8Str = new String(bytes, StandardCharsets.UTF_8); ``` 5. **数据库连接**: 如果是在数据库查询返回的字符串,确保连接的字符集设置为UTF-8,例如使用JDBC: ```java String sql = "SELECT column FROM table WHERE ..."; ResultSet rs = stmt.executeQuery(sql); while(rs.next()) { String utf8Str = rs.getString("column").replace("\u0000", ""); // 可能需要处理NULL值 } ``` 在处理过程中,务必注意字符串中可能存在BOM(Byte Order Mark)标记,这可能导致解析错误,所以最好在读取完后再做判断和处理。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值