java中如何统计一段文本每个汉字出现频率

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.util.HashMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class WordCount {
  public HashMap<String, Integer>count(File file)
  {
   HashMap<String, Integer>map=new HashMap<String, Integer>();
   long count = 0;
   String regex = "[\\u4e00-\\u9fa5]";
   try{
    BufferedReader in=new BufferedReader(new FileReader(file));
    String line=in.readLine();
    while(line!=null)
    {
     Pattern p = Pattern.compile(regex);
     Matcher m = p.matcher(line);
     while(m.find())
     {
      count++;
      String word=m.group();
      if(map.containsKey(word)){
       map.put(word, map.get(word)+1);
      }
      else {
     map.put(word, 1);
    }
     }
     line=in.readLine();
   
    }
   }catch (Exception e) {
  // TODO: handle exception
    System.out.println("File error");
 }
   System.out.println("字数: "+count);
   return map;
  }
  public static void main(String[] args) {
 File file=new File("D:\\dou.txt");
 WordCount wc=new WordCount();
 System.out.println("使用汉字数目: "+wc.count(file).size());
}
}

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值