到底什么是大数据?新手学习大数据的路径是什么?

虽然大数据这个概念是最近提出的,但是大型数据集的起源可以追溯到1960-1979年代。

当时数据世界正处于萌芽阶段,全球第一批数据中心和首个关系数据库便是在那个时代出现的。

2005年左右,人们开始意识到用户在使用Facebook、YouTube 以及其他在线服务时生成了海量数据。同一年,专为存储和分析大型数据集而开发的开源框架 Hadoop 问世,NoSQL 也在同一时期开始慢慢普及开来。

Hadoop 及后来 Spark 等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界的“用户”— 不仅有人,还有机器 — 仍在持续生成海量数据。

如今,随着物联网 (IoT) 的兴起,越来越多的设备接入了互联网,收集了大量的客户使用模式和产品性能数据。同时,机器学习的出现也进一步加速了数据规模的增长。

然而,尽管已经出现了很长一段时间,人们对大数据的利用才刚刚开始。今天,云计算进一步释放了大数据的潜力,通过提供真正的弹性 / 可扩展性,它让开发人员能够轻松启动 Ad Hoc 集群来测试数据子集。此外,图形数据库在大数据领域也变得越来越重要,它们能够以独特的形式展示大量数据,帮助用户更快速执行更全面的分析。

一、大数据使用场景

从客户体验到只能分析,大数据可以帮助我们轻松处理各种业务活动,下面是企业运营中的常见大数据使用场景:

二、大数据的工作原理

大数据首先需要将来自不同来源和应用的数据汇集在一起,然而传统的数据集成机制,例如提取、转换和加载(ETL),通常无法胜任这一工作。换而言之,我们需要新的策略和技术来分析TB甚至PB级的大数据集。

在集成式,我们需要导入和处理数据、执行格式化操作,以符合业务分析师要求的形式整理数据。

大数据对存储要求比较高,存储解决方案可以部署在本地,也可以部署在与暖。其次我们可以采用任何形式存储数据,根据需要为数据集设置处理要求,引入必要的处理引擎。目前,许多客户都不得不根据数据当前所在位置来选择存储方案。对此,云解决方案不仅能满足客户当前的计算需求,同时还支持用户按需、快速地访问所有数据,越来越受到人们的青睐。

只有真正的数据分析并给予数据洞察采取有效行动,我们的大数据投资才会取得汇报。

三、大数据方面核心技术

大数据的概念比较抽象,而大数据技术栈的庞大程度也是让人叹为观止。

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

数据采集:这是大数据处理的第一步,数据来源主要是两类,第一类是各个业务系统的关系数据库,通过Sqoop或者Cannal等工具进行定时抽取或者实时同步;第二类是各种埋点日志,通过Flume进行实时收集。

数据存储:收集到数据后,下一步便是将这些数据存储在HDFS中,实时日志流情况下则通过Kafka输出给后面的流式计算引擎

数据分析:这一步是数据处理最核心的环节,包括离线处理和流处理两种方式,对应的计算引擎包括MapReduce、Spark、Flink等,处理完的结果会保存到已经提前设计好的数据仓库中,或者HBase、Redis、RDBMS等各种存储系统上。

数据应用包括数据的可视化展现、业务决策、或者AI等各种数据应用场景。

通过上述的内容,可能大家对大数据都有了初步的了解,接下来就是核心的部分,因为任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标。大数据所需学习的内容纷繁复杂,难度较大,有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要。

四、大数据学习路线图

  • 开发入门:Linux入门 → MySQL数据库
  • 核心基础: Hadoop
  • 数仓技术: Hive数仓项目
  • PB内存计算: Python入门 → Python进阶→ pyspark框架 → Hive+Spark项目

黑马程序员Python:2023年Python+大数据学习路线图icon-default.png?t=N4P3https://zhuanlan.zhihu.com/p/450898507

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值