java bom 文件读取_java 读取包含[BOM]位的UTF-8文件

最新推荐文章于 2022-06-27 14:45:56 发布

掌阅读书

最新推荐文章于 2022-06-27 14:45:56 发布

阅读量558

点赞数

文章标签： java bom 文件读取

本文链接：https://blog.csdn.net/weixin_30767945/article/details/114183814

版权

最近在做一个数据共享的项目，在读取UTF-8编码的文件时出现些问题，现记录如下。

UTF-8编码的文件在读取时要格外注意，看其文件开头是否包含[BOM]位。这个字符一般用来判断该文件是否为UTF-8编码，但Java读取时也会将该判断位一同读出，导致读取的数据与预期不一致。

解决方法如下

import java.io.*;

public class Test1 {

/** 定义BufferReader */

public static BufferedReader openTextFileR(

String fileName

,String charSet

)throws Exception{

return new BufferedReader(

new InputStreamReader(

skipUTF8BOM(

new FileInputStream(

new File(fileName))

,charSet)

,charSet));

}

/** 跳过[BOM]位 */

public static InputStream skipUTF8BOM(

InputStream is

,String charSet

)throws Exception{

if( !charSet.toUpperCase().equals("UTF-8") ) return is;

if( !is.markSupported() ){

// 如果输入流不支持mark功能时，用BufferedInputStream替换

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

掌阅读书

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java bom 文件读取_java 读取包含[BOM]位的UTF-8文件

最近在做一个数据共享的项目，在读取UTF-8编码的文件时出现些问题，现记录如下。UTF-8编码的文件在读取时要格外注意，看其文件开头是否包含[BOM]位。这个字符一般用来判断该文件是否为UTF-8编码，但Java读取时也会将该判断位一同读出，导致读取的数据与预期不一致。解决方法如下import java.io.*;public class Test1 {/** 定义BufferReader */...
复制链接

扫一扫

java utf 8 bom_Java读带有BOM的UTF-8文件乱码原因及解决方法

weixin_29164091的博客

02-12

1429

原因：关于utf-8编码的txt文件，windows以记事本方式保存时会在第一行最开始处自动加入bom格式的相关信息，大概三个字节！所以java在读取此类文件时第一行时会多出三个不相关的字节，这样对正常的程序产生了不良影响！解决方法：网上有如下解决方法确实可行１.使用UltraEdit将上边的txt文件另存为UTF-8无BOM格式；２.使用Notepad++打开上边的txt文件执行如下操作“格式-...

java bom 文件读取_Java处理文件BOM头的方式推荐

weixin_39832643的博客

02-13

551

背景：java普通的文件读取方式对于bom是无法正常识别的。使用普通的InputStreamReader，如果采用的编码正确，那么可以获得正确的字符，但bom仍然附带在结果中，很容易导致数据处理出错。另外，对于存在BOM头的文件，无法猜测它使用的编码。目标：实现一种方式，可对BOM头进行捕捉和过滤解决方案有二：一、使用apache的工具类，以BOMStream为例：该类的构造方式：BOMInp...

参与评论您还未登录，请先登录后发表或查看评论

utf8 bom 去掉 java_utf-8-BOM删除bom

weixin_35531779的博客

02-13

625

utf-8 bom,去除bom//开始function file_bom($wenjian,$remove = true){//读取文件,将文件写入字符串$contents = file_get_contents($wenjian);//获取整个文件开头三个字节$charset[1] = substr($contents, 0, 1);$charset[2] = substr($contents...

java bom 文件读取_java – 如何解析包含BOM的XML文件？

weixin_31776191的博客

02-16

277

该HTTP服务器正在以GZIP形式发送内容(Content-Encoding：gzip;如果您不知道这意味着什么,请参阅http://en.wikipedia.org/wiki/HTTP_compression),因此您需要将aUrl.openStream()包装在GZIPInputStream中,它将为您解压缩它.例如：builder.build(new GZIPInputStream(aUrl...

java-使用commons-io读取utf-8 bom编码格式csv文件

qq_40308101的博客

06-27

1300

我们一般常用的编码格式是UTF-8，其实有utf-8和utf-8 bom两种格式，utf-8 bom格式是在文件开头加了0xEF, 0xBB, 0xBF三个字节。一般情况用户在使用excel填写数据后生成的csv都是utf-8 bom格式，这就造成了读取时很容易产生数据乱码的情况。解决方法是使用apache commons io提供的BOMInputStream：代码...

java bom 文件读取_Java读取流数据遇到BOM首字符时的处理

weixin_36184307的博客

02-13

351

项目中通过 InputStream 读取文本文件数据时经常会遇到读入的字符流中含有特殊首字符的情况。这个标识在 Java 读取文件的时候，不会被去掉，而且 String.trim() 也无法删除，导致读入的数据比预期的长度大1，此时的特殊首字符有可能就是系统保存文本文件时添加的 BOM 标识。BOM 字符是什么？BOM 即 Byte Order Mark，是 Unicode 规范中推荐的标记字节顺...

java utf8无bom格式_java读取/生成utf-8格式文件和utf-8无BOM文件的方法

weixin_35779845的博客

02-13

2267

首先说下UTF-8格式和UTF-8无BOM格式的区别。两者的区别就是UTF-8格式的文件，在第一行的开始位置，会有个标志位，一般工具是无法看到的，占3个字节。而UTF-8无BOM格式的文件，顾名思义，就是没有这个标志位。先说下从UTF-8文件转换成UTF-8无BOM格式文件相信很多朋友都有过这样的经历，读取UTF-8格式的文件的时候，中文会变成乱码，明明在java代码里指定了读取文件使用的流编码格...

java转文件编码bom_编码转换：UTF-8 BOM to GBK

weixin_39750731的博客

02-26

407

在网上看了很多例子，也查了python API，发现都不完整，原因就在于都没考虑到有BOM和无BOM两种情况。也有说用codecs.EncodedFile(...)来做的，试了很多次，无论是有BOM还是无BOM，转成GBK都失败。下面来看我的试验过程。1.无BOM的UTF-8转GBK首先用ultraedit新建一个文本文件，并存为UTF-8 无BOM格式，我的叫“u8.txt”，内容为“试试这...

Java - 读取UTF-8-BOM文件，第一个字段值为Null

A_bad_horse的专栏

03-25

434

问题复现 Phone.java @Data @NoArgsConstructor @AllArgsConstructor public class Phone { private String brand; private String type; } PhoneTest.java import cn.hutool.core.io.IORuntimeException; import cn.hutool.core.io.file.FileReader; import com.al

java 读取服务器上的某个文件，并解决UTF-8 BOM文件的问号问题

03-29

在Java编程中，读取...总结来说，Java中读取服务器上的UTF-8 BOM文件，需要正确设置字符编码，检测并处理BOM，同时注意异常处理和资源释放。通过掌握这些知识点，开发者可以编写出稳定、高效的代码来处理这类问题。

Java避免UTF-8的csv文件打开中文出现乱码的方法

08-25

Java避免UTF-8的csv文件打开中文出现...Java避免UTF-8的csv文件打开中文出现乱码的方法是使用UTF-16LE编码格式，并在文件头部输出BOM。同时，需要考虑Excel版本的兼容性问题，以确保csv文件可以正确地被打开和读取。

Java解决UTF-8的BOM问题

03-16

本文将深入探讨如何使用Java来处理带有BOM的UTF-8文件。首先，`UnicodeInputStream`和`UnicodeReader`是Java中用于处理Unicode编码流的类。它们是`java.io`包的一部分，提供了对带有BOM的文件进行读取的功能。`...

批量utf文件转utf8-bom

01-15

"批量utf文件转utf8-bom"这个主题指的是将一批以UTF编码的文件转换为带有BOM（Byte Order Mark）的UTF-8编码。BOM是一个特殊的字节序列，用于标识文件的编码类型，对于UTF-8编码，BOM的字节序列为0xEF, 0xBB, 0xBF。...

基于JAVA的厨艺交流平台（Vue.js+SpringBoot+MySQL）

08-01

基于Vue.js和SpringBoot的厨艺交流平台是一个功能丰富的在线社区，旨在为烹饪爱好者提供一个分享和学习烹饪技巧的平台。该平台分为管理后台和用户网页端，支持管理员和普通用户两种角色。管理后台提供对菜谱分类、菜谱信息、食材信息、商品信息和美食日志模块的全面管理功能，包括添加、编辑、删除和查询等操作。用户网页端则为用户提供了一个友好的界面，可以浏览和搜索各种菜谱，查看食材和商品信息，发表自己的美食日志，与其他用户互动交流。整个平台采用现代化的前端技术和后端框架，保证了良好的用户体验和高效的数据处理能力。演示录屏：https://www.bilibili.com/video/BV1uz42197zu 配套教程：https://www.bilibili.com/video/BV1pW4y1P7GR

层次分析法数学建模论文.doc