Big data

Big data

指无法在一定时间范围内用常规的软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产。

 

内存 DB  NB  BB  YB  ZB  EB  PB 1E=1024P 1P=1024G 1G=1024M 1M=1024K 1k=1024B 1B=1024Bit

特点:四个V

大量(Volume) 高速(Velocity) 多样性(Variety):数据分为结构化和非结构化,结构化是以数据库/文本为主的结构化数据,非结构化包括,网络日志,音频,视频,图片,地理位置信息等。

低价值密度(Value):的高低与数据总量的大小成反比,如何快速的对有价值的数据“提纯”成为目前大数据背景下待解决的难题。

 

能干什么:O2O百度大数据+平台通过先进的线上和线下打通技术和客流分析能力,助力商家精细化运营,提升销量

零售行业:探索用户价值,提升个性化服务解决方案旅游:对人流量进行统计,商品推荐:买一种推荐访问过的商品类型,保 险:海量数据挖掘及风险数据的预测,金融:多维度体现用户特征帮助推荐优质用户,房产:打造精准投策与营销,选出更合 适的地,建造更合适的楼,卖给更合适的人,移动联通:根据用户年龄,职业,消费情况,分析统计那种套餐适合哪类人群, 对市场人群精准定制,人工智能:基础是大数据。

分析首先,关注输入是什么,中间的业务逻辑,输出是什么

工作岗位:

部门组织结构:平台组:Hadoop,Flume,Kafka,Storm,spark等平台的搭建,集群性能监控,集群平台性能调优。

数据仓库组:ETL工程师-数据清洗,Hive工程师-数据分析,数据仓库建模。

数据挖掘组:算法工程师,推荐系统工程师,用户画像工程师。

报表开发组:javeee工程师,数据展示

 

技术生态体系:hbase非关系型数据库按列存储,关系型数据库按行,

数据来源层(数据库,文件日志,视频,ppt等)->数据传输层(Sqoop数据传递,Flume日志收集,Kafka消息队列)->数据存储层(Hbase非关系型数据库,HDFS文件存储)->资源管理层(YARE资源管理)->数据计算层(MapReduce离线计算,Spark Core内存计算,Storm实时计算)->任务调度层(Oozie任务调度,azkaban任务调度)->业务模型层(业务模型,数据可视化,业务应用)

 

Hadoop是一个分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题,Hadoop生态圈。

发展历史:由Doug Cutting开创的开源软件,Lucene,用java书写,实现了与Google类似的全文搜索引擎的架构,包括完整的查询引擎和搜索引擎2011年年底成为apache基金会的一个子项目,对于大数据的场景lucene面对与google同样的困难,学习和模仿google是解决这些问题的方法:微型版Nutch,Gooble是hadoop的思想之源(Google在大数据方面的三篇论文)GFS-HDFS,Map-Reduce  MR,BigTable-Hbase,2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升。

 

Hadoop优势:高可靠性,底层维护了多个数据副本(默认备份3个)所以即使hadoop某个计算元素或存储出现故障,也不会导致数据的丢失

高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点

高效性:在MapReduce的思想下,Hadoop是并行工作的,然后再把数据总和处理,以加快任务处理速度

高容错性:能够自动将失败的任务重新分配

 

Hadoop组成:Hadoop1.x组成 1,HDFS数据存储:一个高可靠,高吞吐量的分布式的文件系统,负责存。

2,MapReduce资源调度+计算:一个分布式的资源调度和离线并行计算框架。这样的耦合性不好

3,Common辅助工具:支持其他模块的工具模块

Hadoop2.x组成 MapReduce计算:一个分布式的离线并行计算框架,Yarn(资源调度):作业的调度与集群资源管理的 框架,HDFS(数据存储),common(辅助工具):支持其他模块的工具模块,实现了高内聚底耦合。

HDFS概述:包含三个框架

    1,NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所         在的DataNode

    2,DateNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

    3,Secondary NameNode(2n):用来监控HDFS状态的辅助后台程序,每个一段时间获取HDFS元数据的快照

YARN架构概述:1,ResourceManager(rm):处理用户请求,启动/监控ApplicationMaster

  2,NodeManager(nm):单个节点上的资源管理,处理来自ResourceManager的命令,ApplicationMaster的命令

  3,ApplicationMaster:数据切分,为应用程序申请资源,并分配内部任务

  4,Container:对任务运行环境的抽象,封装了CPU,内存等多维资源以及环境变量等任务运行相关的信息。

MapReduce架构概述:将计算机分为两个阶段,1,Map阶段并行处理输入数据,2,Reduce阶段对Map结果进行汇总

 

运行模式:本地文件运行:主要测试官方案例,测试案例,伪分布式运行:单台节点运行Hadoop,完全分布式运行

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值