java如何统计txt的字数_Java HashSet对txt文本内容去重(统计小说用过的字或字数)...

Java HashSet对txt文本内容去重(统计小说用过的字或字数)

基本思路:

1、字节流读需要去重的txt文本。(展示demo为当前workspace下名为utf-8.txt的文本)

2、对读取到的单个字节判断

(1)如果为字母或特殊字符。操作(2)

(2)添加到HashSet中,如果HashSet.add()返回true代表该字符添加到HashSet失败,即字符未出现过,故对其做写操作。(展示demo写到的是当前workspace下的u.txt)

(3)如果为中文字符,根据txt文本编码取对应字节数(如:utf-8编码三个字节,gbk编码两个字节,展示demo为utf-8编码的txt文本),操作(2)

尤其注意文本编码格式

3、关闭流

如需统计字数即两个HashSet的长度相加即可,本文未写出。

展示demo

FileInputStream fileInputStream = new FileInputStream("utf8.txt");

FileOutputStream fileOutputStream=new FileOutputStream("u.txt");

int len = 0;

HashSet c = new HashSet<>();

HashSet z = new HashSet<>();

while ((len = fileInputStream.read()) != -1) {

if (1 <= len && len <= 127) {//ascii码值判断是否为字母或特殊字符

if (c.add(len)){

//System.out.printf(String.valueOf((char) len));

fileOutputStream.write(len);

}

} else {

int first = len;

int second = fileInputStream.read();

int third = fileInputStream.read();

//一个字符对应三个字节

byte[] bytes = {(byte) first, (byte) second, (byte) third};

if ( z.add(bytes)){

//System.out.print(new String(bytes));

fileOutputStream.write(bytes);

}

}

}

仅提供思路,写法不一定是最好的。

有问题请私聊我。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值