Hadoop入门(黑马程序员学习笔记)

一、大数据

1.数据

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0、1的形式表示。——百度百科

2.数据的产生

对客观事物的计算和记录产生数据。

古代中国的历史书,现代各种传感器记录下的记录等等都是数据产生的方式。

3.企业的方向

主要分为三大方向:现状分析,原因分析,预测分析

现状分析(分析当下的数据)

实时分析(Real Time Processing |Streaming):实时即是产生数据到数据分析到数据应用的时间间隔很短,以至于分秒级,毫秒级

原因分析(分析过去的数据)

离线分析(Batch Processing):在时间维度显示为批次性的变化,一周一次分析(T+7),一天一次分析(T+1),也叫批处理

预测分析(结合数据预测未来)

机器学习(Machine Learning):侧重于数学算法的运用

二、数据分析基本的步骤

一般有6步:明确分析目的和思路---->数据收集---->数据处理---->数据分析---->数据展现---->报告撰写

1.明确分析目的和思路

思路是使分析框架体系化,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论支撑;数据分析方法论是一些营销管理相关的理论,比如用户行为理论,PEST分析法,5W2H分析法等

2.数据收集

可用的数据:业务数据,日志数据,爬虫数据,互联网公开数据

3.数据处理

主要包括:数据清洗,数据转化,数据提取,数据计算

主要为保证数据的有效性和一致性

4.数据分析

对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程

5.数据展现

又称为数据可视化,指的是分析结果图表展示

Ps.数据分析的结果不止可以可视化展示,还可以继续进行数据挖掘(Data Mining),即席查询(Ad Hoc)等

5.报告撰写

数据报告是对整个数据分析过程的总结与呈现,需要有明确的结论,最好有建议或解决方案

三、分布式与集群

1.分布式

多台机器,每台机器上部署不同组件

 2.集群

   多台机器,每台机器上部署相同组件

Linux内核(Kernel):操作系统的核心部分简称内核

Linux发行版本:基于Linux内核与各种常用软件结合的产品,现大致可以分为个人桌面版企业服务器版,个人桌面版中Ubuntu成度高,Redhat(红帽系列)及其延伸版本(CentOS)凭借稳定在企业服务器中占比大

四、VMware介绍

VMware Workstation是一款虚拟机软件,允许用户将Linux、windows等多个操作系统作为虚拟机在单台pc上运行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值