概念
大数据:指无法在一定时间范围内用常规软件工具进行捕捉、关联和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
特点
- 大量
- 高速
- 多样
- 低价值密度
应用场景
- 物流仓储:大数据分析助力商家精细化运营、提升销量、节约成本
- 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
- 旅游:深度结合大数据能力与旅游行业的需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
- 商品广告推荐:给用户推荐可能喜欢的商品
- 保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力
- 金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险
- 房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人
- 人工智能
发展前景
- 党的十八大提出:“实施国家大数据战略”,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇
- 十九大提出:推动互联网、大数据、人工智能和实体经济深度融合
- 国内外人才需求
业务流程分析
- 产品提需求(统计总用户数、日活跃数、回流用户数等等)
- 数据部门搭建数据平台、分析数据指标
- 数据展示(报表展示、邮件发送、大屏展示等等)
hadoop
- hadoop是Apache基金会开发的分布式系统基础架构
- 主要解决海量数据存储和海量数据的分析计算问
- 广义来说。hadoop是指hadoop生态圈
优势(4高):
- 高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
- 搞扩展性:在集群间分配任务数据,方便扩展数以千计的节点
- 高效性:在MapReduce的思想下,hadoop是并行工作的,以加快任务处理速度
- 高容错性:能够自动将失败的任务重新分配
Hadoop1.x与2.x的区别
在hadoop1.x中,MapReduce负责计算和资源调度,而在2.x中,新增了yarn专门负责资源调度,MapReduce只负责计算,实现了解耦
Hadoop2.X组成
- Common 辅助工具
- HDFS 数据存储
- Yarn 资源调度
- MapReduce 计算
HDFS架构概述
- NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。相当于书的目录
- DataNode(du):在本地文件系统存储文件块数据,以及块数据的校验和。相当于书具体的类容
- Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
Yarn架构
-
ResourceManager :
-
处理客户端请求,整个服务器中集群资源的老大,它管理着所有CPU、内存、磁盘等等
-
NodeManager 监控NodeManager
-
启动或监控ApplicationMaster,AppMst管理着具体的执行任务
-
资源的分配与调度
-
-
NodeManager(nm)主要作用如下
- 管理单个节点上的资源
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaster的命令
-
ApplicationMaster(AM)作用:
- 负责数据的切分
- 为应用程序申请资源并分配给内部的任务
- 任务的监控与容错
- Container
- Container是Yarn中的资源抽象,它封装了某个节点上的多维度资源,如内存,CPU,磁盘,网络等
MapReduce
MapReduce将计算分为两个阶段:Map阶段和Reduce阶段
- Map阶段并行处理数据
- Reduce阶段对Map阶段结果进行汇总