谨以此系列来纪念自己的大数据学习之旅,鞭策激励自己,从点滴做起,从现在做起,持之以恒,厚积薄发。
大数据的概念已经火了许久,由于自己之前从事的方向接触不到大数据这一层次(也是软件开发,做的是操作系统方面),所以对它的认知只是停留在这个名称而已。直到最近仔细搜索这一方面的资料才发现,自己对它的认识远远不够,所谓的略知皮毛真的是皮毛而已,或者说皮毛都沾不上。
“工欲善其事必先利其器”,所以既然打算从事这一方向,一定要对它有个清楚清晰的认识。大数据概念最近几年很火爆,究其原因是因为现在我们越来越离不开网络,淘宝、微信、支付宝....都已经变成了生活中的一部分,在使用它们的同时我们会留下各式各样的痕迹,搜索关键字、联系方式、地址、兴趣爱好等等,不管是对企业来说还是对于政府来讲,这些资料信息都可以变成他们决策的一个有力工具。美国政府认为,大数据是“未来的新石油”,并将大数据的研究上升为国家意志,对未来的科技与经济发展将带来深远影响。或许是平时看科幻类电影和侦探类电视剧过多的缘故,对于科技手段类的东东很感兴趣,像美国电视剧那样,随便输入一个人的名字信息,立马将相关联的所有资料展现出来,是不是很酷。现在在国内政府部门也把大数据提升到一个很高的层次上来,所以不管是从职业发展上来看还是个人兴趣来说,它都是最佳的选择路线。
1. 大数据的概念
2. 大数据的处理工具与技术
(1) 大数据的处理工具
(2)大数据的处理技术
3. 学习方向
对于大数据概念,小编认为有如下几点:
1、数据的来源多样性。例如关系数据库+文本+excel等
2、数据量大。TB级别的数据。
3、业务应用领域。实时性高与实时性不高的应用。
学习大数据不仅仅要明确大数据的概念,更重要的是要解决上述三个技术性的问题。
针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种数据库,每个数据库有很多节点等,这些问题如何解决。第二是时间问题,如果这个ETL过长需要半个月时间,那么就没有意义的。
针对第二个问题,数据如何存储,如何查询。TB级的数据如何存储,如何查询,面对亿级别的数据集合,如何提升查询速度。
针对第三个问题,实时分析系统和非实时分析系统。实时分析系统我们如何解决在海量的数据中,及时根据数据分析模型,得出分析报告。非实时系统我们技术要求可能会低些。
围绕解决上述问题为中心,进行探讨学习即可。
4. 职业规划
在大数据的世界里面主要有三个学习方向,大数据开发师、大数据运维师、大数据架构师。
什么是大数据开发师?
围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。
什么是大数据运维师?
了解Hadoop、Spark、Storm等主流大数据平台的核心框架,熟悉Hadoop的核心组件:HDFS、MapReduce、Yarn;具备大数据集群环境的资源配置,如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式,集群搭建,故障诊断、日常维护、性能优化,同时负责平台上的数据采集、数据清洗、数据存储,数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台,通过管理工具分配集群资源实现多用户协同使用集群资源。通过灵活、易扩展的Hadoop平台转变了传统的数据库和数据仓库系统架构,从Hadoop部署实施到运行全程的状态监控,保证大数据业务应用的安全性、快速响应及扩展能力!
什么是大数据架构师?
围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。