统计文章单词[JAVA实现]-经典笔试题

题目:统计文章中单词的个数,或出现频率
思路:先读文件到StringBuffer中,再使用正则表达式,分割成str[],在进行统计(使用map)。

package demo.subject;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import java.util.Map.Entry;

/** * 统计文章单词数 * 原理:使用正则表达式,分割成str[],在进行统计 * @author Ant * */
public class WordCounter {

    /** * 统计单词出现频率 * @param str * @return */
    public Map<String,Integer> count(StringBuffer str){
        Map<String, Integer> map = new HashMap<>();
        String s[] = str.toString().split("[^a-zA-Z]");//用String自带的split,
// Pattern p = Pattern.compile("[^a-zA-Z]");//或者用Pattern类
// String s[] = p.split(str);

        //统计单词个数
        for(int i =0 ; i < s.length; i++){
            if(s[i]!="" && map.get(s[i])==null){
                map.put(s[i], 1);
            }else{
                int n = map.get(s[i])+1;
                map.put(s[i], n);
            }
        }
        return map;
    }

    public static void main(String[] args) {
        StringBuffer buffer = new StringBuffer();
        //读文件,或者直接模拟字符串
        try {
            BufferedReader br = new BufferedReader(
                    new InputStreamReader(
                            new FileInputStream(
                                    new File("E://fatal.log"))));
            String temp = null;
            while((temp=br.readLine())!=null){
                buffer.append(temp);
            }
            br.close();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

// StringBuffer str= new StringBuffer("I am Geng.X.y,she is my girlfriend.Lowood?what is that?X"); 
        WordCounter wc = new WordCounter();
        Map<String,Integer> map = wc.count(buffer);//统计

        //输出
        for(Entry<String, Integer> entry : map.entrySet()){
            System.out.println("Word:"+entry.getKey() +" value:"+entry.getValue());
        }

    }

}

/=================================/
最后附上 正则表达式的基础知识,方便以后翻查
(资料来源于:http://blog.csdn.net/kdnuggets/article/details/2526588 感谢)
/=================================/

// 反斜杠
/t 间隔 (‘/u0009’)
/n 换行 (‘/u000A’)
/r 回车 (‘/u000D’)
/d 数字 等价于[0-9]
/D 非数字 等价于[^0-9]
/s 空白符号 [/t/n/x0B/f/r]
/S 非空白符号 [^/t/n/x0B/f/r]
/w 单独字符 [a-zA-Z_0-9]
/W 非单独字符 [^a-zA-Z_0-9]
/f 换页符
/e Escape
/b 一个单词的边界
/B 一个非单词的边界
/G 前一个匹配的结束

^为限制开头
^java 条件限制为以Java为开头字符
java 条件限制为以java为结尾字符
. 条件限制除/n以外任意一个单独字符
java.. 条件限制为java后除换行外任意两个字符

加入特定限制条件「[]」
[a-z] 条件限制在小写a to z范围中一个字符
[A-Z] 条件限制在大写A to Z范围中一个字符
[a-zA-Z] 条件限制在小写a to z或大写A to Z范围中一个字符
[0-9] 条件限制在小写0 to 9范围中一个字符
[0-9a-z] 条件限制在小写0 to 9或a to z范围中一个字符
[0-9[a-z]] 条件限制在小写0 to 9或a to z范围中一个字符(交集)

[]中加入^后加再次限制条件「[^]」
[^a-z] 条件限制在非小写a to z范围中一个字符
[^A-Z] 条件限制在非大写A to Z范围中一个字符
[^a-zA-Z] 条件限制在非小写a to z或大写A to Z范围中一个字符
[^0-9] 条件限制在非小写0 to 9范围中一个字符
[^0-9a-z] 条件限制在非小写0 to 9或a to z范围中一个字符
[^0-9[a-z]] 条件限制在非小写0 to 9或a to z范围中一个字符(交集)

在限制条件为特定字符出现0次以上时,可以使用「*」
J* 0个以上J
.* 0个以上任意字符
J.*D J与D之间0个以上任意字符

在限制条件为特定字符出现1次以上时,可以使用「+」
J+ 1个以上J
.+ 1个以上任意字符
J.+D J与D之间1个以上任意字符

在限制条件为特定字符出现有0或1次以上时,可以使用「?」
JA? J或者JA出现

限制为连续出现指定次数字符「{a}」
J{2} JJ
J{3} JJJ
文字a个以上,并且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J并存)
文字个以上,b个以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
两者取一「|」
J|A J或A
Java|Hello Java或Hello

「()」中规定一个组合类型
比如,我查询index间的数据,可写作

转载于:https://my.oschina.net/antgan/blog/697214

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值