大数据 big-data
:white_check_mark: 转载请注明出处与作者信息(如下)
原创作者:王小雷
作品出自:https://github.com/wangxiaoleiAI/big-data
联系邮件:wov@outlook.com
最新文章:
- [x] “卜算子·大数据”目录——系列文章与源码介绍,目录
- [x] 1.1 Virtualbox虚拟机快速入门
- [x] 1.2 Linux使用技巧快速入门
- [x] 1.3 virtualbox高级应用构建本地大数据集群服务器
- [x] 2.1 Hadoop伪分布式部署
- [x] 2.2 Hadoop3.1.0完全分布式集群配置与部署
- [x] 2.3 基于IDEA开发第一个大数据程序WordCount
项目地址 https://github.com/wangxiaoleiAI/big-data
摘要
“卜算子·大数据”是什么?
“卜算子·大数据”面向大数据生态组件编程、应用、架构,从入门到精通,让后端开发人员成为大数据开发工程师!
文章、源码怎么获取?
https://github.com/wangxiaoleiAI/big-data 该项目源码、文章开源。
努力每周日文章更新进度+1,努力构建大数据生态体系。你将学到什么?
Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…etc,大数据生态的主流技术,面向大数据(分布式计算)的编程、应用、架构。其他技术体系请关注微信公众号【从入门到精通】。
:pencil2: 该页面其余内容仍在努力构建中…
数据模式
Apache Avro
APache Parquet
存储
理论CAP、OLAP、OLTP、数据仓库
HDFS(CP)
Hbase(CP)
Cassandra(CA)
Phoenix(OLTP)
Kylin(OLAP)
服务器协调
Zookeeper
数据采集
Apcahe Sqoop
Apcahe Kafka
Apcahe Flume
数据分析、批处理系统
Apcahe Hadoop MapReuce
Apache Hive
Apache Pig
Apache Crunch
Oozie
大数据查询系统
ClickHouse
Phoenix
Presto
Impala
Druid
Kylin
Greenplum
流处理系统
Apache Samza
Apache Storm
Apache Spark Streaming
Amazon Kinesis
Kafka Streams
Apache Flink
大数据架构
Lambda架构
Kappa架构
消息队列系统
NIO
netty
rabitMQ
Srping AMQ
想学习大数据,却不知该如何下手?
关注这个项目就对了,会从入零开始,一步步走入大数据生态,编程、应用、架构。
有不懂的如何交流?
进微信群,有志同道合小伙伴,请关注微信公众号【从入门到精通】,获取微信群。
谁在原创?
关于作者,2014年进入大数据领域,任职某股份公司技术经理,主要从事大数据相关工作。
大数据完整知识体系原创分享,长按关注微信公众号【从入门到精通】,进群交流、获取一手更新资讯。
- [x] 摘要
第I部分 为大数据做基础准备
第1章 开门见山
第II部分 分布式计算应用构建与编程
第2章 Hadoop初步入门
第3章 Sqoop从关系型数据库中获取数据
- [ ] 3.1 Sqoop快速搭建
- [ ] 3.2 实战Sqoop从Mysql中导出数据
第4章 Spark核心组件
- [ ] 4.1 Spark超快入门——开发第一个spark应用程序
- [ ] 4.2 Spark RDD,Spark SQL应用
- [ ] 4.3 实战Spark基于Hadoop yarn发布应用
第5章 Zookeeper了解一下
- [ ] 5.1 Zookeeper 了解一下
第6章 Hbase应用
- [ ] 6.1 超快入门Hbase
- [ ] 6.2 Hbase数据范式
第7章 Kafka应用
第III部分 大数据应用架构
第8章 批处理——大数据应用架构
第9章 实时处理——大数据应用架构
附录
项目起始:2018.06.11-晚