大数据概述以及Hadoop

  • 什么是大数据?他有哪四个基本特征(四个V)?

    • 大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

    • 数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。
      Volume

    • 处理速度快,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高的要求所以数据量显得对速度要求有些大。
      Velocity

    • 数据种类繁多:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。
      Variety

    • 价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。
      Value

  • Hadoop大数据处理架构

    • Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台,它实现了MapReduce计算模型和分布式文件系统HDFS等功能。

    • hadoop的特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。

    • Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。

    • Hadoop的核心是分布式文件系统和MapReduce。

    • 借助于Hadoop,程序员可以轻松地编写分布式并行程序,并将其·运行于廉价计算机集群上,万成为那个海量数据的存储与计算。

    • 国内采用Hadoop的公司主要有:百度、淘宝、网易、华为、中国移动等。

    • Hadoop生态系统包括核心的HDFS和MapReduce以外还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari。

    •  

    • Hadoop的安装配置主要包括以下五个步骤     

      • 创建Hadoop用户(创建用户:useradd,设置密码:passwd)​
      • 安装Java(Hadoop开发和运行都需要Java的支持,Ubuntu系统可能已经预装了java)​
      • 设置SSH登录权限
      • 单机安装配置
      • 伪分布式安装配置       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值