c++分布式计算类库

最新推荐文章于 2024-01-28 14:33:45 发布

na17p9f

最新推荐文章于 2024-01-28 14:33:45 发布

阅读量506

点赞数

本文链接：https://blog.csdn.net/na17p9f/article/details/39549031

版权

博主分享了如何利用ZeroMQ实现一个简单的分布式计算框架，以解决大数据计算问题。通过ZeroMQ作为通信底层，使用C++对象作为传输单位，并借助对象反射机制解析对象。任务分解与归约由用户自定义，类库负责任务分发、结果接收及归约。该方法的优势在于无需修改原有代码，只需增加任务类。未来计划解决不同客户端与工作机类库不一致导致的反射问题。

摘要由CSDN通过智能技术生成

分布式计算被誉为高端的东东，我想也是每个程序员都想涉足的领域了。

前一段时间项目中遇到了大数据计算的问题，一般计算时间都要2~3小时，甚至一整天的。我想能不能利用多台机器分布式计算，减少计算时间呢？当前分布式计算框架主要有hadoop, google的map/reduce，或一些其它的框架。但这些东东实在太庞大了，也需要我们修改已有的程序代码。

于是想到了zeromq这个家伙，引用官方的说法： %26ldquo;ZMQ(以下ZeroMQ简称ZMQ)是一个简单好用的传输层，像框架一样的一个socket library，他使得Socket编程更加简单、简洁和性能更高。是一个消息处理队列库，可在多个线程、内核和主机盒之间弹性伸缩。ZMQ的明确目标是%26ldquo;成为标准网络协议栈的一部分，之后进入Linux内核%26rdquo;。现在还未看到它们的成功。但是，它无疑是极具前景的、并且是人们更加需要的%26ldquo;传统%26rdquo;BSD套接字之上的一层封装。ZMQ让编写高性能网络应用程序极为简单和有趣。%26rdquo;。

事实证明，zeromq用起来果然不错。

我的做法是：

1、使用zeromq作为通信底层。使用c++对象作为网络传输的基本单位，并使用c++对象反射机制实现对象的解析。

2、每一个任务，即是一个对象。任务的分解(map）与归约(reduce）的任务，则分配给了使用者本身，因为只有TA知道任务的具体算法与数据。一个任务包含了数据、算法、结果(待计算)。

3、任务分解之后，只需要简单调用DoMultiTask（taskList, waitTime)即可。剩下的工作就是等待计算完成，