找出多个文本中频率高的单词（1）

最新推荐文章于 2022-11-15 19:30:44 发布

AndersZhuo123

最新推荐文章于 2022-11-15 19:30:44 发布

阅读量1.4k

点赞数

分类专栏： java多线程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anders_Zhuo/article/details/8515161

版权

java多线程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

这两天写了一个app，就是统计一堆文本文件里中，出现频率最高的一些单词。

eg，找出某个文件夹下的所有文件中出现频率最高的100个单词

整体思路：肯定是用多线程去读取，要是一个线程的话会很慢的。

1 多个线程同时去读，将读到的单词保存到自己的线程中

2 多个线程将单词汇总到主线程

3 主线程合并每个线程读到的单词

4 主线程找出频率最高的100个

ps：题外话；并不是使用的线程越多就越快，这里面有很多原因的，简单的说几个原因

（1）有IT经验的都知道，一个cpu在某一个时刻只能跑一个线程，所以对于现在的电脑或者服务器至少是双核的，最多的话同时跑两个线程，当然如果真的跑两个线程的话不是不可以，但是依据我的经验以及一些服务器的源码，都是跑电脑的cpu数目+1个线程，例如双核就跑3个，四核跑5个（本人理解较浅，欢迎拍砖）

（2）创建线程也是需要开销的，所以线程创建多了，开销自然而然的就打了，所以java的concurrent包里有cachepool以及fixpool等线程池，但是还是有开销的。

（3）自己写个程序，然后改变线程数目，跑跑看……

具体设计：

对于步骤1：采用java concurrent包里的线程池来创建线程，打算跑3个线程，每个线程里有个map，存储单词，以及其出现的次数

对于步骤2：使用concurrent包里的CountDownLatch类来通知主线程去获取子线程的map

对于步骤3：就是将子线程的每个Map合并到主线程里的一个大map中，若有相同的单词，则合并，相加其出现的频率次数

对于步骤4：找出频率最高的前多少个，我打算使用最小堆来实现，比如前100个，就一直构建大小为100的最小堆

或者不用CountDownLatch，采用concurrent 中的Future + ExecutorService

其他设计：

1 每个子线程共同使用一个map，这样就不用主线程合并了。（想法很好，但是存在一个线程安全的问题，对于hashmap它是不安全的，虽说cuConcurrentHashMap<K,V>，但是他的效率实不是很高，因为有一个线程使用它，其他的线程就必须等待！这样不如每个线程里有有一个自己的Map，最终会总到主线程就ok了）

2 使用必须使用一个最小堆找出前100个，这个纯属于我得个人想法，因为比较单词不会很多，你用一个排序算法，可以使用java里collections.sort 这个方法，他的复杂度是nlogn级别的，也是很快的，我只所以使用堆是因为堆占用的内存比较小，只是存储100个节点

还上不上代码？有点纠结……因为代码没了还要从新写一份……

简单写写吧……下篇见！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
找出多个文本中频率高的单词（1）

这两天写了一个app，就是统计一堆文本文件里中，出现频率最高的一些单词。eg，找出某个文件夹下的所有文件中出现频率最高的100个单词整体思路：肯定是用多线程去读取，要是一个线程的话会很慢的。1 多个线程同时去读，将读到的单词保存到自己的线程中2 多个线程将单词汇总到主线程3 主线程合并每个线程读到的单词4 主线程找出频率最高的100个ps：题外话；并不
复制链接

扫一扫

专栏目录

AndersZhuo123 CSDN认证博客专家 CSDN认证企业博客

码龄12年

109: 原创

12万+: 周排名

161万+: 总排名

62万+: 访问

: 等级

6128: 积分

112: 粉丝

268: 获赞

44: 评论

55: 收藏

私信

关注

热门文章

分类专栏

最新评论

JUnit4 中@AfterClass @BeforeClass @after @before的区别对比
猫小博: 楼主运行结果是正确的，只是JUnit运行的时候的顺序会发生改变，根据不同的操作系统发生改变，指定顺序，不使用默认的顺序就都一样了。使用@FixMethodOrder(value = MethodSorters.NAME_ASCENDING)注解即可
JUnit4 中@AfterClass @BeforeClass @after @before的区别对比
qq_43121083 回复 liguoxuan159357: Junit的版本问题,4.11之后有了执行顺序@FixMethodOrder
JUnit4 中@AfterClass @BeforeClass @after @before的区别对比
qq_43121083: @BeforeClass @Before @Test(timeout = 50) @After @Before @Test(expected = Exception.class) @After @Before @Test @After Test ignored. @AfterClass
JUnit4 中@AfterClass @BeforeClass @after @before的区别对比
德鲁叔叔UUK: @BeforeClass @Before @Test @After @Before @Test(timeout = 50) @After @Before @Ignore @After @Before @Test(expected = Exception.class) @After @AfterClass
Java NIO学习6(文件锁 FileLock）
少云: 博主你好，请表明这是进程锁而不是线程锁

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。