湖仓一体化,跨平台,云原生

43 篇文章 1 订阅
43 篇文章 7 订阅

大数据是指无法使用传统流程和工具,在合理的时间或成本内处理和分析的信息。通过对大数据行业的调研,可以获得此后的发展目标,动力方向等。在我看来,互联网的工作可分为前端,后端,算法,运营,数据开发,测试,运维等。我是学数据科学与大数据专业的,其中数据开发可分为数据开发与大数据开发。大数据开发是开发大数据平台的,协调组件与应用服务,版本、服务器弹性伸缩,负载均衡等。数据开发时开发数据的,进行数据服务,开发数仓的,后期开发的指标以供于机器学习,或用户画像或报表系统等。
大数据的平台尤为重要,存储云平台市面上有阿里云,华为云,腾讯云,私有云等。数据开发平台有dataworks,dataphin及自研平台等,数据可视化平台有帆软,永洪,tableau等。通过这些平台的使用,可以高效的完成指标的开发与展示。
数据仓库上面是数据中台,数据中台上面是数据湖。近期都在提湖仓一体。
根据行业调研,大数据未来的方向是跨平台,云原生,湖仓一体。
数据湖市场现状:数据变革、企业数字化转型、投融资、政策支持将持续加速释放云原生数据湖的应用需求。2020年云原生数据湖市场规模(含生态)达124亿,预计未来三年将以39.7%的复合增长率快速扩张。竞争格局:中国云原生数据湖还处于发展的早期,能够提供整体解决方案的独立厂商还较少,市场较为集中,竞争主要围绕头部云厂商展开。以营收口径核算,2020年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了82.4%。趋势展望:在云原生与大数据背景下,云原生数据湖成为企业智胜未来的新一代生产力工具,市场即将迎来爆发期。尽管数据湖与云和大数据天然契合(海量、弹性、简单、敏捷),但在具体业务场景落地中,仍有许多实际问题需要解决。未来,云原生数据湖厂商需与开发者、ISV和SI共同努力,在企业级生产环境中不断探索,生态共赢驱动云原生数据湖解决方案日臻完善。应用现状:现阶段,云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。选型建议:企业在布局数字化转型时,面对多元且快速迭代的业务需求,一方面需建设统一的数据底座,另一方面需关注DT能力的开放性、敏捷性和创新性。在选型云原生数据湖时,除内部能力评估外,还需要考虑服务商的服务半径和发展路径。
数据仓库是诞生于数据库时代,应企业分析诉求而生的数据产品,它的核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求。随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据和现代化企业对于实时、交互式分析等方面的诉求。随之,数据湖诞生。它选择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置schema,从而获取更强的灵活性;同时通过统一存储管理和计算优化来保证数据的一致性和性能。
数据仓库建设成本低,扩容成本高;数据湖建设成本高,扩容成本低。
云原生部署是数据湖未来的必然形态。近年来,在数字经济的背景下,互联网行业及传统企业加速云化转型,中国整体云服务市场的规模逐年扩增,云成为新一代IT基础设施已经成为不争的事实。其中,企业云化转型的深入以及用云思维的转变,驱动了PaaS市场份额的增长,基于云的能力创新已成为基础云发展新的增长引擎。云特有的“池化、弹性、成本、敏捷”等优势让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。
云原生数据湖核心价值一:数据资产集中存储、统一管理,建立高质量的数据资产。
云原生数据湖核心价值二:低成本通过云的方式,更低成本地使用存储和计算资源。
云原生数据湖核心价值三:高性能云湖共生,带来大数据应用的高性能体验。
云原生数据湖核心价值四:敏捷创新重塑IT部门定位与价值,赋能业务应用敏捷创新。
1960s~2000s,20世纪60年代,计算机开始广泛地应用于数据管理,能够统一管理和共享数据的数据库管理系统(DBMS)诞生。
20世纪90年代,为满足企业数据分析的诉求,数据仓库诞生。
2000s~2010s:互联网蓬勃发展,数据量爆发式增长,数据库/数仓难以承载海量数据,大数据时代开启;以Hadoop、Google、MicrosoftCosmos为代表的分布式技术体系诞生,奠基了大数据时代的基本技术框架。
2010s~2020s数据仓库不断演进,在性能、成本、数据管理能力等方面不断优化,GoogleBigQuery、Snowflake等优秀产品面市;以开源Hadoop体系为代表的开放式HDFS存储、开放的文件格式、开放的元数据服务以及多种引擎(Presto、Spark、Flink等)协同工作的模式,形成了数据湖的雏形。
2020s至今:大数据技术逐步渗透到下游各行业,人们对大数据产品提出了成本、安全、稳定性等更加全面的企业级生产的要求;云上纯托管的存储系统逐步取代HDFS,引擎丰富度也不断扩展,数据湖开始走向“云湖共生”阶段;数据仓库和数据湖在云的体系下得以打通,湖仓一体的解决方案在业界开始应用。
痛点改进
日益丰富的业态,带来了各种各样、纷繁复杂的数据需求。如何有效地满足来自员工、商家、合作伙伴等多样化的需求,提高他们对数据使用的满意度,是数据服务和数据产品需要面对的挑战,如何建设高效的数据模型和体系,使数据易用,避免重复建设和数据不一致性,保证数据的规范性;如何提供高效易用的数据开发;如何做好数据质量保障;如何有效管理和控制日益增长的存储和计算;如何保证数据服务的稳定,保证其性能;如何设计有效的数据产品高效赋能于外部客户和内部员工……这些都给大数据系统的建设提出了更多复杂的要求。
在数据治理、全链路、安全等方面仍待持续改进从应用现状来看,数据湖在国内的落地还存在许多痛点。产品层面,数据湖的数据治理能力和全链路能力仍需进一步的加强,客户方更需智能化、一站式的解决方案;应用层面,云原生数据湖的行业认知和人才培养较为单薄,仍待市场的进一步培育。另外,近期安全隐私法律法规不断落地,企业主对云原生数据湖的安全监管也提出了更高的要求。
数据治理数据治理要求在目录中包含数据的分类、规则,若企业对于数据湖的掌控能力不足,会导致数据湖目录及整体构架设计不良、湖内数据未得到充分归档或维护,容易形成数据沼泽。因缺少上下文元数据关联,数据沼泽就无法进行数据检索,致使用户无法有效分析和利用数据。
全链路能力现阶段国内可以提供全链路云原生数据湖服务的供应商较少,大多厂商仅提供数据湖组件的支持,因此下游需求企业只能采购多家供应商来满足自身从数据采集治理到分析可视化的需求。尤其是技术水平较弱的企业更为希望厂商可以提供全面的服务。
行业认知尽管数据的价值属性已经获得业界的广泛共识,但是选择观望的企业依旧占据大多数,数据湖在认知和推广上仍然面临着多方面的挑战。
安全监管随着企业数字化进入深水区,“数据”已经成为市场和企业的核心生产要素。数据湖的最大风险之一就是安全性和访问控制。大量数据可以在没有任何监督的情况下流入湖泊,一旦某些数据包含其他数据所没有的隐私和法规要求,将会有一定几率发生数据泄露或者遗失,后果严重。
根据行业的调研,可以明确大数据未来的发展方向以及致力于进步的个人着手点,使用框架离线开发一般用hive,实时用spark,flink。更倾向于跨平台,不同的产品与应用可以兼容,无缝对接;倾向于数据存储在云上,成本小并且安全。倾向于建立稳定的模型,便于提供弹性服务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据小理

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值