在下大数据的新手,该系列文章会记录我所有的思考和遇到的问题,
各位看官如果有什么想法希望多多指教!我尽量快速回复。谢谢。
最近公司需要跑大数据,网上找来各种文章分析,平台结构基本定型
公司的需求大概是一个数据包是1.5-3g左右,生成大概6g以下的中间数据。初步可能需要1000-10000个数据包进行综合分析(字串系列比较),生成报告输出到外网mysql数据库。
配置大概是
至强e5 2630v3 *2
华硕z10pa
recc 32g *2(或4。先上2条,看效果)
硬盘4t*n
1.系统 centos7.1 一直再用centos ,感觉还好,用就用比较新的把 反正不是7.0,bug应该少些吧
2.docker这个是后加上去的,具体没用过,按照网上的说法这个是哥打包器,或者说是微型虚拟机,即不分隔系统的虚拟机。对系统迭代有好处。我又是新手配置和程序方面可能反复调试。
3.mesos 和 yarn一直在犹豫,没看过他们的代码,看了一些总属性的文章,感觉他们最大的区别是生态系统的兼容性(这个真没用过所以是人云亦云),mesos有更多的服务器管理功能,而yarn更倾向于hadoop2.x的数据引擎,据说mesos的问题是可能出现资源饿死,而jvm据说是内存清理有问题。其实2者功能是有交叉的,所以他们会冲突。本来打算直接mesos了,后来看到出了myriad的插件可以让2者协调工作,还在apache的孵化器中。
4.myriad 尝鲜体验一下,因为公司刚开始大数据计划,数据量小,服务器少,船小好掉头,后面我会就myriad出个测试,实际评测一下。
5.spark内存集群管理系统,tez和spark的功能类似,最后还是选择了spark,原因1.用spark的企业较多。原因2.it厂商支持spark的多一些,人气旺。
6.tachyon内存文件系统。结合spark使用的,主要用来存储无需长期保持的中间文件。据说新版本可以用ssd当次级文件系统,这样的缓存体系就更好了,内存-》内存文件-》ssd->hdfs
7.数据库方面考虑是hbase. 用spark sql或直接api调用hbase。