01. 大数据学习之序

最新推荐文章于 2024-09-19 15:53:35 发布

LX_10

最新推荐文章于 2024-09-19 15:53:35 发布

阅读量529

点赞数

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/dekong1010/article/details/59139148

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

谨以此系列来纪念自己的大数据学习之旅，鞭策激励自己，从点滴做起，从现在做起，持之以恒，厚积薄发。

大数据的概念已经火了许久，由于自己之前从事的方向接触不到大数据这一层次（也是软件开发，做的是操作系统方面），所以对它的认知只是停留在这个名称而已。直到最近仔细搜索这一方面的资料才发现，自己对它的认识远远不够，所谓的略知皮毛真的是皮毛而已，或者说皮毛都沾不上。

“工欲善其事必先利其器”，所以既然打算从事这一方向，一定要对它有个清楚清晰的认识。大数据概念最近几年很火爆，究其原因是因为现在我们越来越离不开网络，淘宝、微信、支付宝....都已经变成了生活中的一部分，在使用它们的同时我们会留下各式各样的痕迹，搜索关键字、联系方式、地址、兴趣爱好等等，不管是对企业来说还是对于政府来讲，这些资料信息都可以变成他们决策的一个有力工具。美国政府认为，大数据是“未来的新石油”，并将大数据的研究上升为国家意志，对未来的科技与经济发展将带来深远影响。或许是平时看科幻类电影和侦探类电视剧过多的缘故，对于科技手段类的东东很感兴趣，像美国电视剧那样，随便输入一个人的名字信息，立马将相关联的所有资料展现出来，是不是很酷。现在在国内政府部门也把大数据提升到一个很高的层次上来，所以不管是从职业发展上来看还是个人兴趣来说，它都是最佳的选择路线。

1. 大数据的概念

大数据本身就是一个很抽象的概念，提及大数据很多人也只能从数据量上去感知大数据的规模，如: 百度每天大约要处理几十 PB 的数据; Facebook 每天生成 300 TB 以上的日志数据;据著名咨询公司 IDC 的统计，2011 年全球被创建和复制的数据总量为1.8 ZB( 10的21次方) ，但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在 2008 年《Science》杂志出版的专刊中，大数据被定义为“ 代表着人类认知过程的进步，数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”。比较有影响力的 Gartner 公司也给出了大数据的定义：大数据是高容量、高生成速率、种类繁多的信息价值，同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。这种定义不仅是数据规模大，更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息，但是这些数据类型众多，结构化、半结构化、非结构化的数据对已有的数据处理模式带来了巨大的挑战，其中也体现了大数据在3V 基础上发展的4V 定义。4V 定义即 volume，variety，velocity，value，关于第 4 个 V 的说法并不统一，国际数据公司( International Data Corporation， IDC) 认为大数据还应当具有价值性( value)，大数据的价值往往呈现出稀疏性的特点; 而 IBM 认为大数据必然具有真实性( veracity)，这样有利于建立一种信任机制，有利于领导者的决策。百度百科对大数据的定义是:大数据( big data) ，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的科学家Ｒauser 提到一个简单的定义: 大数据就是超过了任何一个计算机处理能力的庞大数据量。

2. 大数据的处理工具与技术

(1) 大数据的处理工具

大数据处理技术的不断更新也促使了大数据处理工具的出现。在大数据的处理平台中，大家最熟悉的莫过于 Apache 的 Hadoop 的块处理平台，Hadoop 主要是基于 MapＲeduce编程框架和 HDFS。HPCC ( high perform-ance computing cluster)系统也是一种开源的分布式密集数据处理平台，主要有以下组件: a) Thor( HPCC data refinery cluster) 主要是作为一个能够并行处理跨节点的分布式文件系统进行工作，主要负责大量数据的接收、传输、连接和检索工作，对数据进行整合; b) Ｒoxie( HPCC data delivery engine) 提供了大量的高性能的多用户在线查询功能; c) ECL( enterprise control language ) 是一种适合处理大数据的功能强大的编程语言; d) ECL IDE 主要是与 ECL 配合工作的，用来编码、调试、监控 ECL 的程序; e) ESP ( enterprise services platform) 提供了一个易用的访问 ECL 查询接口，一般支持SOAP、XML、HTTP 和ＲEST 等。Hadapt是一种高性能的自适应分析平台.

（2）大数据的处理技术

从大数据的处理过程来看，大数据处理的关键技术包括: 大数据采集 --> 大数据预处理 --> 大数据存储及管理 --->大数据分析及挖掘 ---> 大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等) 。

3. 学习方向

对于大数据概念，小编认为有如下几点：
　　 1、数据的来源多样性。例如关系数据库+文本+excel等
　　 2、数据量大。TB级别的数据。
　　 3、业务应用领域。实时性高与实时性不高的应用。

　　学习大数据不仅仅要明确大数据的概念，更重要的是要解决上述三个技术性的问题。

　　针对第一个问题，就是ETL技术-数据的抽取，清洗，加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据，需要抽取一些客户的基本信息。上万的文件，多种数据库，每个数据库有很多节点等，这些问题如何解决。第二是时间问题，如果这个ETL过长需要半个月时间，那么就没有意义的。
　　针对第二个问题，数据如何存储，如何查询。TB级的数据如何存储，如何查询，面对亿级别的数据集合，如何提升查询速度。
　　针对第三个问题，实时分析系统和非实时分析系统。实时分析系统我们如何解决在海量的数据中，及时根据数据分析模型，得出分析报告。非实时系统我们技术要求可能会低些。
　　围绕解决上述问题为中心，进行探讨学习即可。

4. 职业规划

玩转大数据首先要明确自己将要学习的方向，没有人能一下子吃透大数据里面所有的东西。
在大数据的世界里面主要有三个学习方向，大数据开发师、大数据运维师、大数据架构师。
什么是大数据开发师？
围绕大数据系平台系统级的研发人员，熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算，并能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如： Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术，掌握设计开发大数据系统或平台的工具和技能，能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作，如性能改进、功能扩展、故障分析等。
什么是大数据运维师？
了解Hadoop、Spark、Storm等主流大数据平台的核心框架，熟悉Hadoop的核心组件：HDFS、MapReduce、Yarn；具备大数据集群环境的资源配置，如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式，集群搭建，故障诊断、日常维护、性能优化，同时负责平台上的数据采集、数据清洗、数据存储，数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台，通过管理工具分配集群资源实现多用户协同使用集群资源。通过灵活、易扩展的Hadoop平台转变了传统的数据库和数据仓库系统架构，从Hadoop部署实施到运行全程的状态监控，保证大数据业务应用的安全性、快速响应及扩展能力！
什么是大数据架构师？
围绕大数据系平台系统级的研发人员，熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算，并能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如： Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。

通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术，掌握设计开发大数据系统或平台的工具和技能，能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作，如性能改进、功能扩展、故障分析等。