Hadoop大数据开发基础项目化教程

本文是Hadoop大数据开发的基础教程,涵盖了大数据定义、核心特征、体系架构,包括数据采集、预处理、存储、清洗、统计分析和可视化。讲解了大数据技术分类,如HDFS、HBase、Hive等,并探讨了大数据与云计算、物联网的结合以及在金融、医疗等领域的应用案例。
摘要由CSDN通过智能技术生成

项目一 大数据时代

大数据定义:

所谓大数据( Big Data ),或称巨量资料,指的是“所涉及的资料量规模巨大到无法通过
目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更
积极目的的技术资讯。”

大数据核心特征:

(1)数量大( Volume )
(2)种类多( Variety )
(3)速度快( Velocity )
(4)价值量太( Value )
(5)真实性( Veracity )

大数据体系架构

    大数据的核心技术分为数据采集、蜀统计分析和数据可视化。

(1)数据采集
移动互联网、社交网络等每天产生的各种数据表面看并没有什么意义,而且既有结构化的,又有归类、整合出有用的数据才有实际意义,这就是数据通过爬虫工具、 ETL 工具等获取,然后经过清洗数据集市中,再综合起来进行分析。数据采集包招系型数据库的接入和应用程序的接入等。

(2)数据预处理
数据预处理是指对采集后的数据进行主要处法,有数据清理、数据集成、数据变换及数据归用,大大提高了数据挖掘模式的质量,降低了实际挖掘的时间

(3)数据存储
由于海量的数据存储在一台机器显然行不通机器。因此数据存储涉及分布式文件系统和分布式数据库

(4)数据清洗
数据清洗是过滤掉那些不符合要求的数据。错误的数据或者是重复的数据。通常使用 Mapl 后续进行统计分析。

(5)数据统计分析
使用 Hive 对清洗后的数据进行统计分析。 Hive 的工作核心就是把 SQL 语句翻译成 MapReduce 程序,可以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值