第一章:大数据产业
1、大数据是一个以数据为核心的产业,是一个围绕大数据生命周期不断循环往复的生产过程,在作者看来大数据产业生产流程从数据的生命周期的传导和演变上可以分为几个部分:
数据收集、数据存储、数据建模、数据分析、数据变现。
2、大数据人才,大数据人才可以分为以下3个方向:
(1)偏重基建与架构的“大数据结构”方向
研究方向为:架构理论(高并发,高可用,并行计算,MapReduce,Spark等);数据流应用(Flume,Fluentd,Kafka,ZMQ等);存储应用(HDFS,Ceph等);软件应用(Hive、HBase、Cassandra、PrestoDB等);可视化应用(HightCharts、ECharts,D3,HTML5,CSS3等)
(2)偏重建模与分析的“大数据分析”方向
研究方向:数据库应用(RDBMS,NoSQL,MySQL,Hive,Cassandra等);数据加工(ETL,Python);数据统计(统计,概率);数据分析(数据建模、数据挖掘、机器学习、回归分析、聚类、分类、协同过滤)
(3)偏重应用现实的“大数据开放”方向
主要研究方向:数据开发(RDBMS,NoSQL,Hive)&