01. 利用正则表达式提取文章中的所有英文单词

利用正则表达式提取文章中的所有英文单词

1.先创建一个Pattern对象, 模式对象,可以理解成一个正则表达式对象
Pattern pattern = Pattern.compile("[a-zA-Z]+");//“+”:表示可以有一对多
Pattern pattern = Pattern.compile("[0-9]+");//“+”:表示可以有一对多 1997

2.创建一个匹配器对象
//理解:就是matcher 匹配器pattern(模式/样式),到content文本中去匹配
//找到就返回true,否则就返回false
Matcher matcher = pattern.matcher(content);

3、开始循环匹配
while (matcher.find()){
//匹配内容,文本,放到m.group(0)
System.out.println(“找到:”+matcher.group(0));
}

 public static void main(String[] args){
        String content ="1995年,互联网的蓬勃发展给了Oak机会。业界为了使死板、" +
                "单调的静态网页能够“灵活”起来,急需一种软件技术来开发一种程序," +
                "这种程序可以通过网络传播并且能够跨平台运行。于是,世界各大IT企业为此纷纷投" +
                "入了大量的人力、物力和财力。这个时候," +
                "Sun公司想起了那个被搁置起来很久的Oak,并且重新审视了那个用软件编写的试验平台," +
                "由于它是按照嵌入式系统硬件平台体系结构进行编写的,所以非常小," +
                "特别适用于网络上的传输系统,而Oak也是一种精简的语言,程序非常小,适合在网络上传输。" +
                "Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet(Applet是一种将" +
                "小程序嵌入到网页中进行执行的技术),并将Oak更名为Java(在申请注册商标时,发现Oak已" +
                "经被人使用了,再想了一系列名字之后,最终,使用了提议者在喝一杯Java咖啡时无意提到的" +
                "Java词语)。5月23日,Sun公司在Sun world会议上正式发布Java和HotJava浏览器。" +
                "IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软等各大公司都纷纷停止了" +
                "自己的相关开发项目,竞相购买了Java使用许可证,并为自己的产品开发了相应的Java平台。";
        //提取文章中的所有英文单词
        //1.先创建一个Pattern对象, 模式对象,可以理解成一个正则表达式对象
        Pattern pattern = Pattern.compile("[a-zA-Z]+");//“+”:表示可以有一对多
        // Pattern pattern = Pattern.compile("[0-9]+");//“+”:表示可以有一对多 1997

        //2.创建一个匹配器对象
        //理解:就是matcher 匹配器pattern(模式/样式),到content文本中去匹配
        //找到就返回true,否则就返回false
        Matcher  matcher =  pattern.matcher(content);
        //3、开始循环匹配
        while (matcher.find()){
            //匹配内容,文本,放到m.group(0)
            System.out.println("找到:"+matcher.group(0));

        }
    }

结果:
在这里插入图片描述

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
你好,这是一个问题涉及编程技术的问题。我可以为您提供一些帮助。 1. 统计总共出现了多少个单词: 您可以使用Scanner类读取整篇文章,然后使用正则表达式文章的每个单词提取出来,最后将提取出的单词数量统计即可。 示例代码: Scanner scanner = new Scanner(file); int wordCount = 0; while (scanner.hasNextLine()) { String line = scanner.nextLine(); String[] words = line.split("\\W+"); for (String word : words) { wordCount++; } } System.out.println("总共出现了" + wordCount + " 个单词"); 2. 统计有多少个互不相同的单词: 您可以使用Set来存储提取出来的单词,因为Set不允许存储重复的元素,所以可以利用它来统计互不相同的单词数量。 示例代码: Scanner scanner = new Scanner(file); Set<String> wordSet = new HashSet<>(); while (scanner.hasNextLine()) { String line = scanner.nextLine(); String[] words = line.split("\\W+"); for (String word : words) { wordSet.add(word.toLowerCase()); } } System.out.println("共有" + wordSet.size() + "个互不相同的单词"); 3. 按单词出现频率的大小输出单词: 您可以使用Map来存储单词和它们出现的次数,然后按照出现次数进行排序。 示例代码: Scanner scanner = new Scanner(file); Map<String, Integer> wordMap = new HashMap<>(); while (scanner.hasNextLine()) { String line = scanner.nextLine(); String[] words = line.split("\\W+"); for (String word : words) { String lowerCaseWord = word.toLowerCase(); int count = wordMap.getOrDefault(lowerCaseWord, 0); wordMap.put(lowerCaseWord, count + 1); } } List<Map.Entry<String, Integer>> wordList = new ArrayList<>(wordMap.entrySet()); Comparator<Map.Entry<String, Integer>> comparator = new Comparator<Map.Entry<String, Integer>>() { @Override public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) { return o2.getValue() - o1.getValue(); } }; wordList.sort(comparator); for (Map.Entry<String, Integer> entry : wordList) { System.out.println(entry.getKey() + " 出现了 " + entry.getValue() + " 次"); } 希望能对您有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员阿红

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值