Hadoop入门

数据分析与企业数据分析方向

数据是什么

数据是指对可观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可以识别的、抽象的符号。
他不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及相互关系的抽象表示。

数据如何产生

对客观事物的计量和记录产生数据

企业数据分析方向

把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。
数据分析在企业日常经营分析中主要由三大方向:

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势

原因分析
离线分析(batch processing)
面向过去,面向历史,分析已有的数据
在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理
现状分析
实时分析(real time processing |streaming)
面向当下,分析实时产生的数据;
所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
预测分析
机器学习(machine learning)
基于历史数据和当下产生的实时数据预测未来发生的事情
侧重于数学算法的运用,如分类、聚类、关联、预测。

数据分析的基本步骤

概念:

  • 数据分析步骤(流程)的重要性体现在:对如何展开分析提供了强有力的逻辑支撑
  • 张文霖在《数据分析六部曲》说,典型的数据分析应当包含以下几个步骤:
  1. 明确分析目的和思路
  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向
  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
  • 数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。
  1. 数据收集
  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台
  1. 数据处理
  • 准确的来说,应该称之为数据预处理。
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据。
  1. 数据分析
  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作
  1. 数据展现
  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物
  • 数据可视化(data visualization)数据数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(data mining)、即席查询(Ad Hoc)等。
  1. 报告撰写
  • 数据分析报告是对整个数据分析过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整的呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

分布式与集群概念

分布式:多台机器,每台机器上部署不同组件
集群:多台机器,每台机器上部署相同组件

  • 分布式、集群的共同点是都是多台机器(服务器)组成的
  • 口语中混淆两者概念时是相对于单机来说的

应用:

  • 数据爆炸,海量数据处理场景面临问题(单机存储有瓶颈,多台机器分布式存储;单机计算能力有限,多台机器分布式计算)

linux操作系统

操作系统概念

操作系统(operating system,简称OS)是管理计算机硬件与软件资源的程序。

  • 没有操作系统的机器称之为裸机,不管是开发还是使用都不方便
  • 操作系统也提供一个让用户与系统交互的操作界面

操作系统分类

桌面操作系统:所谓的桌面指的是图形化操作界面

  • 嵌入式操作系统:是一种完全嵌入受控器件内部,为特定应用而设计的专用计算机系统
  • 服务器操作系统:一般指的是安装在大型计算机上的操作系统。
  • 移动设备操作系统:主要应用在智能手机、平板等设备上的系统

Linux内核(kernel)

  • 操作系统的核心部分简称内核,Linux第一版本独立内核由linus torvalds开发实现,约10000行代码
  • 后续linus torvalds公开了内核代码,邀请全球进行完善,但是他又最终裁定权
  • linux操作系统= linux kernel+gun软件及系统软件+必要的应用程序

Linux相关知识

Hadoop简介

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

火眼猊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值