浅谈大数据学习

1大数据的产生背景

大数据的产生

           电子商务、社交网站、物联网、云计算、智能终端的普及大数据时代已经到来

定义:无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合

2大数据的技能

                            

  • yarn解决多租户资源调度的难题;
  • flume解决数据传输的难题,收集日志信息;
  • sqoop解决分布式存储数据与传统DB数据之间的转换(数据迁移);
  • oozie解决了大数据计算任务的调度;
  • kafka提供了发布订阅机制的消息队列;
  • zookeeper 分布式应用程序协调,可以帮助用户完成主备的选举 ;
  • hive在hdfs的基础上提供了数仓的功能;
  • hbase则基于hdfs实现列式数据库

      目前,大数据比较火爆的技术,主要有以下几个

         Hadoop, 可能很多人都了解过这门技术,但是并不知道这门技术到底是否对企业有作用,这门技术分三块:MapReduce,Yarn以及HDFS,其中MapReduce是分布式计算模型,但是现在在企业中实际用的非常少,原因很多,主要是一个是编写的复杂程度以及执行速度相对比较慢,所以很多公司放弃掉了它。Yarn,是统一资源管理器,现在用的还比较多,对于集群来说,通常需要跑很多的程序,如果没有统一的资源管理,将无法充分利用集群的资源,如:CPU、内存等。HDFS,分布式文件系统,这个用的相对比较多,很多著名的分布式数据库都是基于HDFS的,如Hbase。

Spark,这个应该是目前最火爆的技术之一了,它是一个一站式分布式计算平台,它包含SparkCore、SparkStreaming、SparkMllib、SparkSQL,它不仅能做实时处理,还能进行离线处理、机器学习以及图计算,非常强大,只要掌握一门Spark就能做各种事情,所以它也是一站式的。

Kafka,最开始是作为消息中间件,随着时间的推移,逐渐发展围完备的流式处理平台,它包含Producer、Consumer、Connector及Streaming。在大数据中,它一般以分布式数据总线的角色存在。后期出了Connector,可以用作数据收集和输出,Streaming用来做相对简单的流处理。

Hbase,分布式列式数据库,有时候也称为KeyValue数据库,之前也说到它是基于HDFS的。用它的人分两类,一类是觉得不好用的人,一类是觉得非常好用的人。Hbase重点在于它的设计与调优,如果能有一个好的表设计和RowKey设计,能针对实际业务场景最好调优,那它是非常好用的。

Scala,这里说一门语言,它是大数据的黄金语言,著名的Kafka和Spark就是用Scala编写的。它是函数式和面向对象完美结合的语言,大家可以认为它是Java的加强版语言,特别适合用来做分析。

其他的如:Mongodb、Redis 建议去掌握,因为交互式查询时一般会用到这两个数据库。

3大数据的发展及职业规划

        物联网、智慧城市、增强现实(AR)与虚拟现实(VR)、区块链技术、语音识别、人工智能、数字汇流是大数据未来应用的七大发展方向

一、物联网

    物联网是新一代信息技术的重要组成部分,也是“信息化”时代的重要发展阶段。

用途范围物联网用途广泛,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、环境监测、路灯照明管控、景观照明管控、楼宇照明管控、广场照明管控、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。

二、智慧城市

       智慧城市(英语:Smart City)是指利用各种信息技术或创新意念,集成城市的组成系统和服务,以提升资源运用的效率,优化城市管理和服务,以及改善市民生活质量。

用途范围用途分为十大智慧体系,分别为:智慧物流体系、智慧制造体系、智慧贸易体系、智慧能源应用体系、智慧公共服务、智慧社会管理体系、智慧交通体系、智慧健康保障体系、智慧安居服务体系、智慧文化服务体系。

三、增强现实(AR)与虚拟现实(VR)

       AR增强现实技术(Augmented Reality,简称 AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术。

       用途范围VR已不仅仅被关注于计算机图像领域,它已涉及更广的领域,如视频会议、网络技术和分布计算技术,并向分布式虚拟现实发展。说到视频会议,不得不提到南方电讯,南方电讯“统一协作”区别于传统的融合通信,是集视频协作、语音协作、数据协作、IM协作、媒体协作于一体的解决方案。同时,以开放的架构打造全场景应用。南方电讯希望发挥统一协作巨大的力量,让企业经营者无惧任何距离、设备、平台或时间障碍,实现成本节约,助力企业数字化转型,赋予企业每个部门、每个员工随时都可以获取协作的力量。

                    大数据的七大发展方向

 

四、区块链技术

       区块链技术,简称BT(Blockchain technology),也被称之为分布式账本技术,是一种互联网数据库技术,其特点是去中心化、公开透明,让每个人均可参与数据库记录。

同时区块链技术将应用于金融行业的征信,交易安全和信息安全。金融的数据安全、信息的隐私以及网络的安全正适合分布式区域块技术、区块链在金融方面可以形成点对点的数字价值转移,从而提升传输和交易的安全性。

五、语音识别

       语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比作为“机器的听觉系统”。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

目前,国外的应用一直以苹果的siri为龙头。而国内方面,Polycom的EDII等设备都采用了最新的语音识别技术,南方电讯云视频采用全球知名品牌Polycom Group310、Polycom Trio、Polycom Pano、Polycom Flex等视频会议明星产品,满足各种会议室、教室和任何规模会议空间的高清视频、语音和会议内容分享需求。

六、人工智能

       人工智能(Artificial Intelligence),英文缩写为AI。用途范围机器翻译,智能控制,专家系统,机器人学,语言和图像理解,遗传编程机器人工厂,自动程序设计,航天应用,庞大的信息处理,储存与管理,执行化合生命体无法执行的或复杂或规模庞大的任务等等。

七、数字汇流

      对未来冲击最大的一项趋势,就是将上述六项趋势合并起来的效果。

像是84亿个物联网设备,可用区块链技术加强安全性;智慧城市通过物联网就能产生海量数据,这些数据需要由人工智能进行分析;虚拟现实和语音识别也需要通过人工智能不断学习,这些科技发展息息相关,相辅相成,所以数字汇流是最重要的趋势。南方电讯作为百年央企中国普天旗下一员,业务横跨政务信息化、远程医疗、智慧教育、智慧金融、科技法庭等多应用领域,高度关注行业发展、互动技术的融创新,并具有研发实力,满足用户的深度定制化需求

就业的热门岗位

一、ETL研发

随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要。

ETL研发,主要负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

目前,ETL行业相对成熟,相关岗位的工作生命周期比较长,通常由内部员工和外包合同商之间通力完成。ETL人才在大数据时代炙手可热的原因之一是:在企业大数据应用的早期阶段,Hadoop只是穷人的ETL。

二、Hadoop开发

Hadoop的核心是HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。随着数据集规模不断增大,而传统BI的数据处理成本过高,企业对Hadoop及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长。如今具备Hadoop框架经验的技术人员是最抢手的大数据人才。

三、可视化工具开发

海量数据的分析是个大挑战,而新型数据可视化工具如Spotifre,Qlikview和Tableau可以直观高效地展示数据。

可视化开发就是在可视开发工具提供的图形用户界面上,通过操作界面元素,由可视开发工具自动生成应用软件。还可轻松跨越多个资源和层次连接您的所有数据,经过时间考验,完全可扩展的,功能丰富全面的可视化组件库为开发人员提供了功能完整并且简单易用的组件集合,以用来构建极其丰富的用户界面。

过去,数据可视化属于商业智能开发者类别,但是随着Hadoop的崛起,数据可视化已经成了一项独立的专业技能和岗位。

四、信息架构开发

大数据重新激发了主数据管理的热潮。充分开发利用企业数据并支持决策需要非常专业的技能。信息架构师必须了解如何定义和存档关键元素,确保以最有效的方式进行数据管理和利用。信息架构师的关键技能包括主数据管理、业务知识和数据建模等。

五、数据仓库研究

数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。

数据仓库的专家熟悉Teradata、Neteeza和Exadata等公司的大数据一体机。能够在这些一体机上完成数据集成、管理和性能优化等工作。

六、OLAP开发

随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合。联机分析处理(OLAP)系统就负责解决此类海量数据处理的问题。

OLAP在线联机分析开发者,负责将数据从关系型或非关系型数据源中抽取出来建立模型,然后创建数据访问的用户界面,提供高性能的预定义查询功能。

七、数据科学研究

这一职位过去也被称为数据架构研究,数据科学家是一个全新的工种,能够将企业的数据和技术转化为企业的商业价值。随着数据学的进展,越来越多的实际工作将会直接针对数据进行,这将使人类认识数据,从而认识自然和行为。因此,数据科学家首先应当具备优秀的沟通技能,能够同时将数据分析结果解释给IT部门和业务部门领导。

总的来说,数据科学家是分析师、艺术家的合体,需要具备多种交叉科学和商业技能。

八、数据预测分析

营销部门经常使用预测分析预测用户行为或锁定目标用户。预测分析开发者有些场景看上有有些类似数据科学家,即在企业历史数据的基础上通过假设来测试阈值并预测未来的表现。

九、企业数据管理

企业要提高数据质量必须考虑进行数据管理,并需要为此设立数据管家职位,这一职位的人员需要能够利用各种技术工具汇集企业周围的大量数据,并将数据清洗和规范化,将数据导入数据仓库中,成为一个可用的版本。然后,通过报表和分析技术,数据被切片、切块,并交付给成千上万的人。担当数据管家的人,需要保证市场数据的完整性,准确性,唯一性,真实性和不冗余。

十、数据安全研究

数据安全这一职位,主要负责企业内部大型服务器、存储、数据安全管理工作,并对网络、信息安全项目进行规划、设计和实施。数据安全研究员还需要具有较强的管理经验,具备运维管理方面的知识和能力,对企业传统业务有较深刻的理解,才能确保企业数据安全做到一丝不漏。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值