java html 读取gb2312,处理gb2312编码的文件的读取和输出 -- kkito的博客

使用的山寨机实在是不敢恭维,但我还是乐此不疲的使用它。一个重要的理由是,莫有钱买个新的。-___-

看小说,但问题是只支持1k字的文件,在大的打开就显示不了1k字以外的内容。打算研究下j2me,实现个靠谱的。当下只能跑个程序把txt的小说分割成一小个一小个的。

问题就是在分割的时候,老出现乱码,之前没仔细考虑,想着只要是8的倍数分割应该没有问题,结果乱码的有很多,十分郁闷。

后来仔细想想,知道了问题的症结。就gb2312,如果读取到以为大于128的,那么说明不是ascii字符,就的占两个字节,但如果是小于128的,就只占一个字节,比如 “如a意”就对应了5个字节,如字占两,a占一个,意占一个。

所以分割的时候只能一次判断才能行,但java明显可以使用他的getBytes方法和string的构造方法逃避这个问题,但ruby,我不知道是否也有相关的库类,似乎是要这么来的。

public class NovelParser {

public static void main(String args[])throws Exception{

String fileName = "/home/kk/workspace/blog/44.txt";

//getStrFromFile(fileName);

getStrFromGBFile(fileName);

}

public static void getStrFromFile(String fileName) throws IOException{

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要确保在使用 FileReader 读取文件时不出现乱码,需要注意以下几点: 1. 读取文件时需要指定文件编码格式,如果不指定,默认使用系统默认的编码格式,可能会导致乱码问题。因此,可以使用 `InputStreamReader` 将文件的字节流转换为字符流,并指定正确的编码格式。 2. 如果文件本身没有指定编码格式,那么需要根据文件内容的特征来判断编码格式。例如,GB2312 编码文件一般以“0xB0 0xA1”或“0xA3 0xAC”开头,而 UTF-8 编码文件一般以“0xEF 0xBB 0xBF”开头。因此,可以先读取文件的前几个字节,根据这些特征来判断编码格式,然后再使用相应的编码格式读取文件。 下面是一个示例代码,可以读取 utf-8 和 GB2312 格式的文件,并解决乱码问题: ```java import java.io.*; public class FileReaderExample { public static void main(String[] args) { String fileName = "test.txt"; File file = new File(fileName); try (FileInputStream fis = new FileInputStream(file); BufferedInputStream bis = new BufferedInputStream(fis); InputStreamReader isr = new InputStreamReader(bis, "UTF-8")) { char[] buffer = new char[(int) file.length()]; isr.read(buffer); String fileContent = new String(buffer); System.out.println(fileContent); } catch (IOException e) { e.printStackTrace(); } } } ``` 在上面的示例代码中,我们使用了 `InputStreamReader` 将文件的字节流转换为字符流,并指定了 UTF-8 编码格式。这样可以确保即使文件本身没有指定编码格式,也能正确读取文件内容。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值