大数据学习笔记（一）

最新推荐文章于 2024-03-19 11:56:58 发布

木子丶Li

最新推荐文章于 2024-03-19 11:56:58 发布

阅读量225

点赞数

分类专栏：大数据-hadoop 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L531003231/article/details/110623411

版权

大数据-hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

概念

大数据：指无法在一定时间范围内用常规软件工具进行捕捉、关联和处理的数据集合，是需要新处理模式才能具有更强的决策力，洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

特点

大量
高速
多样
低价值密度

应用场景

物流仓储：大数据分析助力商家精细化运营、提升销量、节约成本
零售：分析用户消费习惯，为用户购买商品提供方便，从而提升商品销量。
旅游：深度结合大数据能力与旅游行业的需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。
商品广告推荐：给用户推荐可能喜欢的商品
保险：海量数据挖掘及风险预测，助力保险行业精准营销，提升精细化定价能力
金融：多维度体现用户特征，帮助金融机构推荐优质客户，防范欺诈风险
房产：大数据全面助力房地产行业，打造精准投策与营销，选出更合适的地，建造更合适的楼，卖给更合适的人
人工智能

发展前景

党的十八大提出：“实施国家大数据战略”，大数据技术和应用处于创新突破期，国内市场需求处于爆发期，我国大数据产业面临重要的发展机遇
十九大提出：推动互联网、大数据、人工智能和实体经济深度融合
国内外人才需求

业务流程分析

产品提需求（统计总用户数、日活跃数、回流用户数等等）
数据部门搭建数据平台、分析数据指标
数据展示（报表展示、邮件发送、大屏展示等等）

hadoop

hadoop是Apache基金会开发的分布式系统基础架构
主要解决海量数据存储和海量数据的分析计算问
广义来说。hadoop是指hadoop生态圈

优势(4高)：

高可靠性：hadoop底层维护多个数据副本，所以即使hadoop某个计算元素或存储出现故障，也不会导致数据的丢失
搞扩展性：在集群间分配任务数据，方便扩展数以千计的节点
高效性：在MapReduce的思想下，hadoop是并行工作的，以加快任务处理速度
高容错性：能够自动将失败的任务重新分配

Hadoop1.x与2.x的区别

在hadoop1.x中，MapReduce负责计算和资源调度，而在2.x中，新增了yarn专门负责资源调度，MapReduce只负责计算，实现了解耦

Hadoop2.X组成

Common 辅助工具
HDFS 数据存储
Yarn 资源调度
MapReduce 计算

HDFS架构概述

NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性(生成时间，副本数，文件权限)，以及每个文件的块列表和块所在的DataNode等。相当于书的目录
DataNode(du)：在本地文件系统存储文件块数据，以及块数据的校验和。相当于书具体的类容
Secondary NameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照

Yarn架构

ResourceManager ：
- 处理客户端请求，整个服务器中集群资源的老大，它管理着所有CPU、内存、磁盘等等
- NodeManager 监控NodeManager
- 启动或监控ApplicationMaster，AppMst管理着具体的执行任务
- 资源的分配与调度
NodeManager(nm)主要作用如下
- 管理单个节点上的资源
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaster的命令
ApplicationMaster（AM）作用：

负责数据的切分
为应用程序申请资源并分配给内部的任务
任务的监控与容错

Container

Container是Yarn中的资源抽象，它封装了某个节点上的多维度资源，如内存，CPU，磁盘，网络等

MapReduce

MapReduce将计算分为两个阶段：Map阶段和Reduce阶段

Map阶段并行处理数据
Reduce阶段对Map阶段结果进行汇总

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据学习笔记（一）

概念大数据：指无法在一定时间范围内用常规软件工具进行捕捉、关联和处理的数据集合，是需要新处理模式才能具有更强的决策力，洞察力和流程优化能力的海量、高增长率和多样化的信息资产。特点大量高速多样低价值密度应用场景物流仓储：大数据分析助力商家精细化运营、提升销量、节约成本零售：分析用户消费习惯，为用户购买商品提供方便，从而提升商品销量。旅游：深度结合大数据能力与旅游行业的需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。商品广告推荐：给用户推荐可能喜欢的商品保险：海量数据挖掘及风
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

木子丶Li 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。