大数据技术的目的就是为了应对业务环境(生活或生产)中第一时间产生的大量或海量数据,可能是一天几个亿甚至几十亿的数据,要对这些数据进行结构化处理,既能大吞吐量的写入存储,还能快速的查询到存储的结构,既要均衡的分布这些数据,还能对出现问故障的节点,快速进行恢复,既能保证系统在分布式环境下具有良好的可用性,在某些情况下还要保证数据的一致性(接近),既要能快速的调用业务规则,实现数据驱动下的实时处理,还能对成百上千台存储了N多个PT数据集的并行分析,提供算力最大化的数据处理架构。
那大数据开发呢,实际上分两种:第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发。这种工作的话对理论和实践要求的都更深一些,也更有技术含量。接下来来开始拆分大数据开发,这些都是基础要掌握的内容
- 01 Python基础:语法· Python数据处理· 函数· 文件读写· 异常处理· 模块和包
- 02 Python进阶:面向对象· 网络编程· 多任务编程· 高级语法· Python编程综合项目
- 03 SQL基础: MySQL与SQL· Kettle与BI工具· Pymysql
- 04 ETL基础: ETL概念与工具· Python ETL实战· BI
- 05 Hadoop技术栈 :Linux· 大数据基础和硬件介绍· Zookeeper· HDFS· MapReduce· YARN· Hive基础· Hive高阶
- 06 Spark技术栈 : Pandas基础· Pandas数据处理实战· Spark基础· Spark Core· Spark SQL· SparkSQL案例· Kafka· Elasticsearch
- 07 Flink技术栈 : Flink Core· Flink DataStream· Flink SQL· Flink Runtime· Flink高级· Flink电商案例实战
学习资源:
一、网站
1. 网易公开课 https://open.163.com/
2. 腾讯课堂 https://ke.qq.com/
3. 中国大学慕课 https://www.icourse163.org/
4. B站 https://www.bilibili.com/
学习资源非常多,内容系统且全面,重点关注一些专业培训机构上传的学习视频
5. Statista https://www.statista.com/
6. CEIC https://www.ceicdata.com/en
7. InfoQ-大数据https://www.infoq.cn/
二、书籍
1. 《为数据而生》
这是一部大数据在智慧城市、医疗、教育、金融、商业等领域的实践笔记;更是一部为未来大数据的发展提供有可行性的路径指南!
2. 《R语言预测实战》
R语言具有上手快、效率高的特点,它横跨金融、生物、医学、互联网等多个领域,主要用于统计、建模及可视化。预测是数据挖掘的主要作用之一,也是大数据时代的核心价值所在。
3. 《Hadoop权威指南》
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。
三、视频资源(有用记得收藏哦)
Python好课分享,有帮助的可以收藏起来慢慢学:
python大数据方向
2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程
2022年大数据spark3.2入门Spark全套视频教程,4天spark3.2快速入门到精通,全网首套基于Python语言的spark教程
2022年MySQL基础入门2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
Python+大数据开发
MySQL数据库:2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
Hadoop入门:2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程
Hive数仓项目:大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)
PB内存计算
Python入门:全套Python教程_Python基础入门视频教程,零基础小白自学Python必备教程
Python编程进阶:Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程
spark3.2从基础到精通:Spark全套视频教程,4天spark3.2快速入门到精通,全网首套基于Python语言的spark教程
Hive+Spark离线数仓工业项目实战:全网首次披露大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台