java 词频统计代码_java 词频统计代码

package hello;

import java.io.BufferedReader;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.IOException;

import java.util.HashMap;

import java.util.Iterator;

import java.util.StringTokenizer;

public class WordCount {

public void sort(int[] arry) {

int temp;

for (int i = 0; i < arry.length; i++) {

for (int j = i; j < arry.length; j++) {

if (arry[i] > arry[j]) {

temp = arry[i];

arry[i] = arry[j];

arry[j] = temp;

}

}

}

for (int k = 0; k < arry.length; k++) {

System.out.print(arry[k] + " ");

}

}

public static void main(String[] args) { // 用HashMap存放这样一个映射关系

HashMap hashMap = new HashMap();

// 用正则表达式来过滤字符串中的所有标点符号

String regex = "[【】、.。,,。\"!--;:?\'\\]]";

try {

// 读取要处理的文件

BufferedReader br = new BufferedReader(new FileReader("src/file80.txt"));

String value;

while ((value = br.readLine()) != null) {

value = value.replaceAll(regex, " ");

// 使用StringTokenizer来分词(StringTokenizer详见JDK文档)

StringTokenizer tokenizer = new StringTokenizer(value);

while (tokenizer.hasMoreTokens()) {

String word = tokenizer.nextToken();

if (!hashMap.containsKey(word)) {

hashMap.put(word, new Integer(1));

} else {

int k = hashMap.get(word).intValue() + 1;

hashMap.put(word, new Integer(k));

}

}

}

// 遍历HashMap,输出结果

Iterator iterator = hashMap.keySet().iterator();

while (iterator.hasNext()) {

String word = (String) iterator.next();

System.out.println(word + ":\t" + hashMap.get(word));

}

} catch (FileNotFoundException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

}

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值