“大数据”可能带来的巨大价值正渐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策,这样的思维方式,可以预见,将推动一些习惯于靠“差不多”运行的社会发生巨大变革。大数据的“样本=总体”的全数据模式,这是“让数据发声”。
至于什么是大数据?定义是大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。而维基百科上给的则是大数据由巨型数据集组成,这些数据集大小常超出常用软件在可接受时间下的收集、应用、管理和处理能力。
而大数据的主要内容也主要是“数据——大数据——分析和挖掘——发现和预测。
大数据的4V特点:Volume、Velocity、Variety、Veracity。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。
大数据学习方向和路线
一、大数据运维之Linux基础
打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等。因为企业
中的项目基本上都是使用Linux环境下搭建或部署的。
1)Linux系统概述 | 6)用户和用户组管理 |
二、大数据开发核心技术 - Hadoop 2.x从入门到精通
大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!大数据学习群:868847735 一起讨论进步学习
大数据的基石:其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark数据存储在其上面;其二是分布式资源管理框架
YARN,是Hadoop 云操作系统(也称数据系统),管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控;分布式并行计算框架
MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用,YARN 集群资源管理与任务监控,MapReduce编
程,分布式集群的部署管理(包括高可用性HA)必须要掌握的。
一、初识Hadoop 2.x 1)大数据应用发展、前景 | 二、深入Hadoop 2.x 1)HDFS文件系统的架构、功能、设计 |
三、高级Hadoop 2.x 1)分布式部署Hadoop 2.x
|
三、大数据开发核心技术 - 大数据仓库Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行
运行。其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
一、Hive 初识入门 1)Hive功能、体系结构、使用场景 | 二、Hive深入使用 1)Hive中的内部表、外部表、分区表 |
三、Hive高级进阶 1)Hive数据的存储和压缩 | 四、结合实际案例分析 1)依据业务设计表 |
四、大数据协作框架 - Sqoop/Flume/Oozie
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL
,Oracle ,Postgres等)中的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部
署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
一、数据转换工具Sqoop 1)Sqoop功能、使用原则 | 二、文件收集框架Flume 1)Flume 设计架构、原理(三大组件) |
三、Oozie功能、安装部署 1)使用Oozie调度MapReduce Job和HiveQL |
五、大数据Web开发框架 - 大数据WEB 工具Hue
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通
过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
1)Hue架构、功能、编译 | 4)Hue集成Hive、DataBase |
六、大数据核心开发技术 - 分布式数据库HBase从入门到精通
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase在
Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大
规模结构化存储集群
一、HBase初窥使用 1)HBase是什么、发展、与RDBMS相比优势、企业使用 | 二、HBase 深入使用 1)HBase 数据存储模型 |
三、HBase 高级使用 1)如何设计表、表的预分区(依据具体业务分析讲解) | 四、进行分析 1)依据需求设计表、创建表、预分区 |
七、大数据核心开发技术 - Storm实时数据处理
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。 随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、
推荐系统、预警系统、金融系统(高频交易、股票)等等, 大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是
流计算技术中的佼佼者和主流。 按照storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语,使我
们的批处理程序变得简单和高效。 同样,Storm也为实时计算提供了一些简单高效的原语,而且Storm的Trident是基于Storm原语更高级的抽象框架,类似于基于
Hadoop的Pig框架, 让开发更加便利和高效。本课程会深入、全面的讲解Storm,并穿插企业场景实战讲述Storm的运用。 淘宝双11的大屏幕实时监控效果冲击
了整个IT界,业界为之惊叹的同时更是引起对该技术的探索。 可以自己开发升级版的“淘宝双11”?
1)Storm简介和课程介绍 | 15)Storm事务案例实战之 ITransactionalSpout |
八、Spark技术实战之基础篇 -Scala语言从入门到精通
为什么要学习Scala?源于Spark的流行,Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,各大公司都在使用Spark:IBM宣布承诺大力推进
Apache Spark项目,并称该项目为:在以数据为主导的,未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台,
Scala具有数据处理的天然优势,Scala是未来大数据处理的主流语言
1)-Spark的前世今生 | 11)-Scala编程详解:Map与Tuple |
九、大数据核心开发技术 - 内存计算框架Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集,除
了能够提供交互式查询外,它还可以优化迭代工作负载。Spark Streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断
(几秒),以类似batch批量处理的方式来处理这小部分数据
1)Spark 初识入门 | 10)案例分析 |
十、大数据核心开发技术 - Spark深入剖析
1)Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优 |
十一、企业大数据平台高级应用
完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析,主要包括有: 企业大数据平台概述、搭建企业
大数据平台、真实服务器手把手环境部署、使用CM 5.3.x管理CDH 5.3.x集群
1)企业大数据平台概述 | 9)真实服务器手把手环境部署 |
十二、项目实战:驴妈妈旅游网大型离线数据电商分析平台
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏
等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了。 本课程讲师本人之前在游戏、旅游等公司
专门从事离线数据分析平台的搭建和开发等,通过此项目将所有大数据内容贯穿,并前后展示!
1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、离线数据分析,SpringMVC,Highchat |
十三、项目实战:基于1号店的电商实时数据分析系统
1)全面掌握Storm完整项目开发思路和架构设计 | 6)灵活运用HBase作为外部存储 |
十四、项目实战:基于美团网的大型离线电商数据分析平台
本项目使用了Spark技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL和Spark Streaming,进行离线计算和实时计算业务模块的开发。实现了包括用
户访问session分析、页面单跳转化率统计、热门商品离线统计、 广告点击流量实时统计4个业务模块。过合理的将实际业务模块进行技术整合与改造,
该项目完全涵盖了Spark Core、Spark SQL和Spark Streaming这三个技术框架中几乎所有的功能点、知识点以及性能优化点。 仅一个项目,即可全面掌握Spark
技术在实际项目中如何实现各种类型的业务需求!在项目中,重点讲解了实际企业项目中积累下来的宝贵的性能调优 、troubleshooting以及数据倾斜解决方案等知识和技术
1)真实还原完整的企业级大数据项目开发流程: | 2)现场Excel手工画图与写笔记:所有复杂业务流程、架构原理 |
十五、机器学习及实践
基于PyMC语言以及一系列常用的Python数据分析框架,如NumPy、SciPy和Matplotlib,通过概率编程的方式,讲解了贝叶斯推断的原理和实现方法。
该方法常常可以在避免引入大量数学分析的前提下,有效地解决问题。课程中使用的案例往往是工作中遇到的实际问题,有趣并且实用。回归等算法有较为深入的了解,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,熟悉并且掌握当下最流行的机器学习算法,如回归、决策树、SVM等,并通过代码实例来 展示所讨论的算法的实际应用。
1)Mahout、Spark MLlib概述 | 8)随机森林及Mahout、SparkMllib案例 |
十六、推荐系统
开发推荐系统的方法,尤其是许多经典算法,重点探讨如何衡量推荐系统的有效性。课程内容分为基本概念和进展两部分:前者涉及协同推荐、基于
内容的推荐、基于知识的推荐、混合推荐方法,推荐系统的解释、评估推荐系统和实例分析;后者包括针对推荐系统的攻击、在线消费决策、推荐系统和下一代互联网以及普适环境中的推荐
1)协同过滤推荐 | 5)推荐系统的解释 |
十七、分布式搜索引擎Elasticsearch开发
联网+、大数据、网络爬虫、搜索引擎等等这些概念,如今可谓炙手可热
1)Elasticsearch概念 | 5)Elasticsearch索引和Mapping |
十八、大数据高并发系统架构实战方案(LVS负载均衡、Nginx、共享存储、海量数据、队列缓存 )
随着互联网的发展,高并发、大数据量的网站要求越来越高。而这些高要求都是基础的技术和细节组合而成的。
十九、大数据高并发服务器实战
随着Web技术的普及,Internet上的各类网站第天都在雪崩式增长。但这些网站大多在性能上没做过多考虑。当然,它们情况不同。有的是Web技术本身的原因(主
要是程序代码问题),还有就是由于Web服务器未进行优化。不管是哪种情况,一但用户量在短时间内激增,网站就会明显变慢,甚至拒绝放访问。要想有效地解决
这些问题,就只有依靠不同的优化技术。本课程就是主要用于来解决大型网站性能问题,能够承受大数据、高并发。主要涉及 技术有:nginx、tomcat、memcached、redis缓存、负载均衡等高级开发技术
大数据分析、数据可视化
二十、Tableau商业智能与可视化应用实战
Tableau的数据连接与编辑、图形编辑与展示功能,包括数据连接与管理、基础与高级图形分析、地图分析、高级数据操作、基础统计分析、如何与R集成进行高级分析、分析图表整合以及分析成果共享等主要内容。
1)什么是数据可视化? | 12)工作表 |
二十一、Echarts从入门到上手实战
对数据可视化技术有一个全面、系统、深入的了解,最终达到能够利用Echarts图表结合后端数据进行前端可视化报表展示的目的,
1)数据可视化概述 | 11)Echarts3.x与Echarts2.x的区别 |
二十二、Vue.js快速上手
Vue.js是一套构建用户界面的轻量级MVVM框架,与其他重量级框架不同的是, Vue.js 的核心库只关注视图层,并且非常容易学习,很容易与其它前端技术或已有的项目整合。 本课程主要分两部分讲解:1.掌握Vue.js设计规范的语法;
1)Vue.js简介和MVC、MVP以及MVVM架构 | 18)事件修饰符 |