Hadoop初探

大数据特点

  • 大量
  • 高速
  • 多样
    • 结构化
    • 非结构化
  • 价值密度:快速对有效数据的”提纯“

业务流程分析

需求——>数据部门搭建数据平台——>数据可视化

大数据部门组织结构

  • 平台组
    • Hadoop、FLume、Kafka、HBase、Spark等框架平台搭建
    • 集群性能监控
    • 集群性能调优

 

  • 数据仓库组
    • ETL数据清洗
    • Hive数据分析、仓库建模

 

  • 数据挖掘组
    • 算法工程师
    • 推荐系统工程师
    • 用户画像工程师

 

  • 报表开发组
    • JavaEE工程师

 

Hadoop概念

因为Lucene项目面对海量数据,存在存储数据困难,检索速度慢等问题

Hadoop用于解决海量数据的存储和分析问题

GFS——>HDFS

Map-Reduce——>MR

BigTable——>HBase

Hadoop优势

  • 高可靠性:维护多个数据副本
  • 高可扩展性:集群间分配任务,方便扩展节点
  • 高效性:MapReduce并行计算
  • 高容错性:能欧自动将失败的任务重新分配

Hadoop组成

  • Hadoop2.0中Yarn单独负责调度
  • Common:一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)
  • HDFS:分布式文件系统
  • Pig:检索数据集
  • Hive:分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL查询语言。
  • HBase:分布式,按列存储数据库
  • Zookeeper:分布式,可用性高的协调服务
  • Sqoop:数据库和HDFS之间高效传输数据的工具

具体学习内容

  • HDFS——存储
  • MapReduce——分析处理
  • YARN——调度
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值