大数据平台安装测试（1）centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 选型分析

最新推荐文章于 2022-10-08 17:26:49 发布

百分之59

最新推荐文章于 2022-10-08 17:26:49 发布

阅读量1.1k

点赞数 1

分类专栏：框架 docker tachyon hbase yarn mesos myriad 大数据 spark 文章标签： tachyon spark yarn mesos docker

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinhao82/article/details/50215005

版权

框架同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

在下大数据的新手，该系列文章会记录我所有的思考和遇到的问题，

各位看官如果有什么想法希望多多指教！我尽量快速回复。谢谢。

最近公司需要跑大数据，网上找来各种文章分析，平台结构基本定型

公司的需求大概是一个数据包是1.5-3g左右，生成大概6g以下的中间数据。初步可能需要1000-10000个数据包进行综合分析（字串系列比较），生成报告输出到外网mysql数据库。

配置大概是

至强e5 2630v3 *2

华硕z10pa

recc 32g *2(或4。先上2条，看效果)

硬盘4t*n

1.系统 centos7.1 一直再用centos ，感觉还好，用就用比较新的把反正不是7.0，bug应该少些吧

2.docker这个是后加上去的，具体没用过，按照网上的说法这个是哥打包器，或者说是微型虚拟机，即不分隔系统的虚拟机。对系统迭代有好处。我又是新手配置和程序方面可能反复调试。

3.mesos 和 yarn一直在犹豫，没看过他们的代码，看了一些总属性的文章，感觉他们最大的区别是生态系统的兼容性（这个真没用过所以是人云亦云），mesos有更多的服务器管理功能，而yarn更倾向于hadoop2.x的数据引擎，据说mesos的问题是可能出现资源饿死，而jvm据说是内存清理有问题。其实2者功能是有交叉的，所以他们会冲突。本来打算直接mesos了，后来看到出了myriad的插件可以让2者协调工作，还在apache的孵化器中。

4.myriad 尝鲜体验一下，因为公司刚开始大数据计划，数据量小，服务器少，船小好掉头，后面我会就myriad出个测试，实际评测一下。

5.spark内存集群管理系统，tez和spark的功能类似，最后还是选择了spark，原因1.用spark的企业较多。原因2.it厂商支持spark的多一些，人气旺。

6.tachyon内存文件系统。结合spark使用的，主要用来存储无需长期保持的中间文件。据说新版本可以用ssd当次级文件系统，这样的缓存体系就更好了，内存-》内存文件-》ssd->hdfs

7.数据库方面考虑是hbase. 用spark sql或直接api调用hbase。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。