基于云计算的大数据平台基础设施建设实践

本文探讨了基于云计算的大数据平台建设,强调了云化的趋势和优势,如弹性、敏捷性和灵活性。周小四分享了如何克服云上大数据平台建设的挑战,包括稳定性和性能问题,并提出对数据格式选择的重要性。文章还提到了Hadoop、Spark等平台的适用场景,以及如何利用云计算优化大数据处理流程。
摘要由CSDN通过智能技术生成

大数据平台基础建设当前的趋势是云化与开放,这个平台需要可以提供各类大数据相关 PaaS 服务,也需要使各类服务间可以简单灵活的组合来满足多变及定制的需求。如何在云上提供弹性、敏捷,却不失稳定和高性能的大数据平台?如何高效的利用云计算的特点来开发大数据平台?

本期中国互联网技术联盟分享活动中青云QingCloud 系统工程师周小四给大家带来基于云计算的大数据平台基础设施建设以及其架构特点的主题分享。

以下是分享原文。

——————

大家晚上好,我是周小四,英文名字 Ray ,江湖尊称“四爷”,现在负责青云QingCloud 大数据平台的开发。今天跟大家分享一下在云上建设大数据基础平台的问题,下面我提到的大数据是特指大数据基础平台,比如 Hadoop 、Spark 等,而不是指上层应用。

我会从四个方面和大家交流一下:云计算与大数据,云上大数据平台建设的挑战,大数据基础平台,数据格式。

 一、云计算与大数据

相信大家平时接触更多的是物理机方案的大数据,本来这个话题我并不想总讲,因为在我们看来大数据的发展方向是云化和开源,是一个顺理成章的事情,但是在实际实施中会遇到一些阻力,这是因为我们有相当一部分人还是物理机世界做大数据的思维,还有对云计算的不信任,稍微有风吹草动就怀疑云计算,这显然是不对的。怀疑大数据云化无外乎就是稳定性和性能,不过好消息是越来越多的人已经意识到也认可这个发展方向,相信以后这就不再是个话题了。

我们还是从大数据本身出发。我们在准备做一个大数据项目的时候,首先是确定需求,然后就是平台的选型,平台的选型是一个最难、最重要的、也是大家最困惑的环节,我遇到的客户基本上都在这个问题上有不同程度的纠结,这个完全可以理解,因为东西太多了,并且还有更多的新东西源源地不断地出来。

其实平台的选型完全取决于你的需求,你是实时计算还是离线计算,是处理结构化数据还是非结构化数据,你的应用有没有事务性要求等等。确定这些需求后就找相应的平台就行了,这就要求我们对每个平台的特点要了解。我们知道没有一个平台能解决所有的问题, Spark 再强大也没有存储,很多场景需要和 Hadoop / HBase / 对象存储等配合起来使用,更别说替换数据仓库了。

选择平台或工具不能赶时髦,适用才是最正确的,有些东西并一定就只有 Hadoop 或 Spark 才能解决,比如 redis 提供了一个很好的数据结构 hyperloglogs 用来统计独立事件,而内存最多只会用到 12k 字节,跟多少个独立事件无关,误差不超过 1 % ,那么用这个来统计每个时段的独立事情比如 UV 还是很不错的选择。

每个平台有自己特定的使用场景,我们不但要了解它,甚至很多时候我们还会对各个候选平台做个 POC 或 ben

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值