java 文本词频统计_java实现文本词频统计

最新推荐文章于 2024-08-24 20:30:55 发布

原创最新推荐文章于 2024-08-24 20:30:55 发布 · 205 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java 文本词频统计

该博客展示了使用Java进行文本词频统计的代码。通过读取文件，利用分词器分词、过滤器提取词干，将每个词及其出现次数存储在Map中，最后将结果写入文件。

File f=new File(path);

Mapmap=new HashMap<>();

Version matchVersion = Version.LUCENE_31;

Analyzer analyzer = new StopAnalyzer(matchVersion);

BufferedReader br = new BufferedReader(new FileReader(f));//读取文件

TokenStream ts = analyzer.tokenStream(null, br);//用analyzer分词，得到token流

ts = new PorterStemFilter(ts);//过滤器提取词干

CharTermAttribute ca = ts.addAttribute(CharTermAttribute.class);//ca存储了ts的文本信息

ts.reset();//必须的

while(ts.incrementToken()){

String term = ca.toString();

if(!map.keySet().contains(term)){

map.put(term, 1);

}else

{

map.put(term, map.get(term)+1);

}

ts.end();

ts.close();

analyzer.close();

br.close();

StringBuilder sb=new StringBuilder();

File gh=new File(path);

for(String key:map.keySet()){

sb.append(key+" "+map.get(key)+"\r\n");

}

BufferedWriter bw=new BufferedWriter(new FileWriter(gh));

bw.write(sb.toString());

bw.flush();

bw.close();

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

薄荷白开水

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Java实现词频统计

yeyu_xing的博客

10-14

4963

一、随便找一篇英文文章，存储在txt文本中，内容如下： There are moments in life when you miss someone so much that you just want to pick them from your dreams and hug them for real! Dream what you want to dream;go where you want to go;be what you want to be,because you have only on

Java-词频统计编程实现

FILWYGIRL的博客

06-14

362

在项目根目录里创建单词文本文件读取文件所有行单词竖形排列从第一个开始，一个一个计算输出结果

参与评论您还未登录，请先登录后发表或查看评论

Java-词频统计

Python_XTyyds的博客

06-02

285

词评统计

java计算每一行的词频_Java实现的一个词频统计程序

weixin_42116794的博客

02-16

174

import java.util.HashMap;import java.util.Iterator;public class WordCount {public static void main(String[] args) {String[] text=new String[]{"the weather is good ","today is good","today has good wea...

java统计词频算法_Java实现的词频统计——单元测试

weixin_35378583的博客

02-17

388

前言：本次测试过程中发现了几个未知字符，这里将其转化为十六进制码对其加以区分。1)保存统计结果的Result文件中显示如图：2)将其复制到eclipse环境下的切分方法StringTokenizer中却没有显示；复制前：复制后：前后看似没有任何变化；3)改动后的统计结果：因此为了检测这个字符做了一个将其转化为十六进制码的小程序：1 String t = "\0";2 ...

wordstat_java.rar_word stat_wordst_wordstat_java_词频 JAVA_词频统计

09-24

本项目聚焦于一个具体的文本处理功能——词频统计，通过Java语言实现。词频统计是指计算一段文本中各个词汇出现的次数，它可以帮助我们理解文本的主题和结构。下面将详细介绍这个Java实现的词频统计工具及其相关知识...

THULAC_lite_java_v1.zip_THULAC_java_v1.jar_THULAC分词_java词频统计_thu

09-19

THULAC Lite Java v1是一个专门用于中文文本处理的工具包，主要功能是进行中文文本的分词和词频统计。这个压缩包包含了THULAC Lite的Java版本，即`THULAC_java_v1.jar`，它是一个可执行的Java程序，能够帮助开发者在...

java统计词频算法_Java实现的词频统计——功能改进

weixin_36106852的博客

02-17

1398

本次改进是在原有功能需求及代码基础上额外做的修改，保证了原有的基础需求之外添加了新需求的功能。功能：1. 小文件输入——从控制台由用户输入到文件中，再对文件进行统计；2.支持命令行输入英文作品的文件名；3.支持命令行输入存储有英文作品文件的目录名，批量统计；4.从控制台读入英文单篇作品，重定向输入流。实现：1.判断输入方式，如果从命令行传递参数则直接对文件进行统计；如果未传递参数，其方式同控制台相...

Java中的文本处理算法：如何实现高效的词频统计与分词

最新发布

微赚淘客系统开发者博客

08-24

639

大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将探讨如何在Java中实现高效的文本处理算法，重点关注词频统计与分词技术。通过示例代码，我们将展示如何高效地处理文本数据，计算词频，并进行文本分词，以支持各种文本分析应用。Apache Lucene是一个强大的全文搜索库，也可以用于高效的词频统计。它提供了高级的文本分析工具和高效的索引机制。词频统计是文本处理中的一个基本任务，用于计算文本中每个词出现的频率。对于英文文本，基于正则表达式的分词方法是最简单的一种方法。

JAVA-词频统计工具.zip

02-18

这个名为“JAVA-词频统计工具.zip”的压缩包提供了一个使用Java实现的词频统计工具，它可以帮助我们了解一段文本中各个词汇出现的频率。以下是对该工具及其相关知识点的详细解释： 1. **Java编程语言**： Java是一...

java词频统计

03-07

1．读取文档并分词。要求给定一篇.txt英文文档，计算机读入并统计该篇文章由哪些词组成，按字母顺序输出出现过的词已经每个词的出现频率。

Java词频统计程序

07-14

统计文本文档中汉字、字母、数字等的频次，并输入到新的文本文档中去。

Java词频统计算法（使用单词树）

07-03

用Java实现的词频统计，代码。为了统计词汇出现频率，最简单直接的做法是另外建一个Map：key是单词，value是次数。将文章从头读到尾，读到一个单词就到Map里查一下，如果查到了则次数加一，没查到则往Map里一扔。这样做虽然代码写起来简单，但性能却非常差。首先查询Map的代价是O(logn)，假设文章的字母数为m，则整个统计程序的时间复杂度为O(mlogn)不说，如果要拿高频词可能还需要对统计结果进行排序。即便对结构上进行优化性能仍然不高。

Java实现的词频统计

weixin_30763455的博客

09-03

505

要求： 1.读取文件； 2.记录出现的词汇及出现频率； 3.按照频率降序排列； 4.输出结果。概要： 1.读取的文件路径是默认的，为了方便调试，将要统计的文章、段落复制到文本中即可；2.只支持英文；3.会按照词汇出现的频率降序排列。实现： 1.使用FileReader、BufferedReader读取文件； 2.采用StringTokenizer进行字符分割； ...

使用JAVA进行词频统计

qq_43685315的博客

02-23

932

使用JAVA进行词频统计

Java词频统计

m0_56017821的博客

07-09

1326

Java实现词频统计输出按从少到多排序用到了HashMap和TreeMap

Java实现的词频统计——单元测试

weixin_30312557的博客

09-26

196

　　前言：本次测试过程中发现了几个未知字符，这里将其转化为十六进制码对其加以区分。　　　　1）保存统计结果的Result文件中显示如图：　　　　　　　　　　2）将其复制到eclipse环境下的切分方法StringTokenizer中却没有显示；　　　　　　复制前：　　　　　　　　　　　　复制后：　　　　　　　　　　　　前后看似没有任何变化；　　　　3）改动后的统...

Java简单实现汉语词频统计

flash_love的博客

08-11

5241

需求需要一个词频统计，先写了一个简单的demo，就是先用ArrayList保存词语，然后用遍历用HashMap去存储数量和词语。import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map;import org.junit.Test;public class Test

Java学习：词频统计

zl202111的博客

06-02

1445

Java学习：词频统计

Java实现的词频统计工具使用教程

在本资源中，Java被用来实现词频统计工具，这体现了其在文本处理和数据分析方面的应用。 2. 词频统计概念词频统计是指计算一个或多个文本数据中单词出现的次数。这在文本分析、自然语言处理等领域中非常重要。词频...