Hadoop初探

最新推荐文章于 2024-07-08 14:25:36 发布

爱读书的小寿星

最新推荐文章于 2024-07-08 14:25:36 发布

阅读量102

点赞数

分类专栏： Hadoop 文章标签： hadoop hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZUSTXMJ_918/article/details/117753416

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

大数据特点

大量
高速
多样
- 结构化
- 非结构化
价值密度：快速对有效数据的”提纯“

业务流程分析

需求——>数据部门搭建数据平台——>数据可视化

大数据部门组织结构

平台组
- Hadoop、FLume、Kafka、HBase、Spark等框架平台搭建
- 集群性能监控
- 集群性能调优

数据仓库组
- ETL数据清洗
- Hive数据分析、仓库建模

数据挖掘组
- 算法工程师
- 推荐系统工程师
- 用户画像工程师

报表开发组
- JavaEE工程师

Hadoop概念

因为Lucene项目面对海量数据，存在存储数据困难，检索速度慢等问题

Hadoop用于解决海量数据的存储和分析问题

GFS——>HDFS

Map-Reduce——>MR

BigTable——>HBase

Hadoop优势

高可靠性：维护多个数据副本
高可扩展性：集群间分配任务，方便扩展节点
高效性：MapReduce并行计算
高容错性：能欧自动将失败的任务重新分配

Hadoop组成

Hadoop2.0中Yarn单独负责调度
Common：一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)
HDFS：分布式文件系统
Pig：检索数据集
Hive：分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL查询语言。
HBase：分布式，按列存储数据库
Zookeeper：分布式，可用性高的协调服务
Sqoop：数据库和HDFS之间高效传输数据的工具

具体学习内容

HDFS——存储
MapReduce——分析处理
YARN——调度

爱读书的小寿星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop初探

Hadoop背景大数据特点大量高速多样结构化非结构化价值密度：快速对有效数据的”提纯“业务流程分析需求——>数据部门搭建数据平台——>数据可视化大数据部门组织结构平台组 Hadoop、FLume、Kafka、HBase、Spark等框架平台搭建集群性能监控集群性能调优数据仓库组 ETL数据清洗 Hive数据分析、仓库建模数据挖掘组算法工程师推荐系统工程师用户画像工程师报表开发组...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。