Java文本处理5-统计文本中汉字的出现次数(乱序)

1、任务简介

本节任务是编写一个Java程序,可以统计指定文本中每一个汉字的出现次数,第一个程序将结果打印出来,而第二个程序将结果保存到一个指定文本中。


2、基本任务和代码

(1)任务1

1)任务内容

统计指定文本中每一个汉字的出现次数,并将结果打印出来。

2)具体思路

(1)与之前的处理方法一样,首先需要使用InputStreamReader类和BufferedReader类实现文本的读取,由于我使用的《西游记》为utf-8编码,所以还需要指定编码格式为utf-8;

(2)然后需要定义一个空的字符串变量,在对文本逐行读出后将读出的内容追加到该空字符串后;

(3)需要使用TreeMap方法来进行字频的统计,需要使用public static构造一个静态方法,由于是对字频进行统计,所以还需要确保字符为汉字才能进行统计,故还需要使用Matcher类进行字符串的匹配操作,若该字符为汉字则进行统计;

(4)在主函数中调用构造出来的TreeMap方法,并将结果打印出来,然后迭代每一个汉字的Value值可以得到总字符数(与《Java文本处理3-统计文本行数、字符数、汉字、数字、字母数等》中的统计结果进行对比可以验证该方法的准确性);

3)任务代码

程序保存为hanzi2.java,代码如下:

import java.io.*;//导入java.io包中的所有类
import java.util.*;//导入java.util包中的所有类
public class hanzi2 {
   //类名
    public static void main(String[] args)  {
   //程序主函数
        try {
   //try代码块,当发生异常时会转到catch代码块中
        	//读取指定的文件
        	Scanner s = new Scanner(System.in);//创建scanner,控制台会一直等待输入,直到敲回车结束
        	System.out.println("请输入想要打开的文本文档:");//输入提示信息
        	String a = s.nextLine();//定义字符串变量,并赋值为用户输入的信息
        	//创建类进行文件的读取,并指定编码格式为utf-8
        	InputStreamReader read = new InputStreamReader(new FileInputStream(a),"utf-8"); 
            BufferedReader in = new BufferedReader(read);//可用于读取指定文件     
			StringBuffer b = new StringBuffer();//定义一个字符串变量b,便于后续进行内容追加的操作
			String str = null;//定义一个字符串类型变量str
			int i = 0;//定义一个整型变量,用于统计字符串的出现次数
			while((str = in.readLine()) != null) {
   //readLine()方法, 用于读取一行,只要读取内容不为空就一直执行
				b.append(str);//将该行内容追加到字符串b的后面
			}
			TreeMap<Character,Integer>tm =Pross(b.toString());//调用TreeMap函数
			System.out.println("汉字统计结果:"<
  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值