一、大数据
1.数据
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0、1的形式表示。——百度百科
2.数据的产生
对客观事物的计算和记录产生数据。
古代中国的历史书,现代各种传感器记录下的记录等等都是数据产生的方式。
3.企业的方向
主要分为三大方向:现状分析,原因分析,预测分析
现状分析(分析当下的数据)
实时分析(Real Time Processing |Streaming):实时即是产生数据到数据分析到数据应用的时间间隔很短,以至于分秒级,毫秒级
原因分析(分析过去的数据)
离线分析(Batch Processing):在时间维度显示为批次性的变化,一周一次分析(T+7),一天一次分析(T+1),也叫批处理
预测分析(结合数据预测未来)
机器学习(Machine Learning):侧重于数学算法的运用
二、数据分析基本的步骤
一般有6步:明确分析目的和思路---->数据收集---->数据处理---->数据分析---->数据展现---->报告撰写
1.明确分析目的和思路
思路是使分析框架体系化,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论支撑;数据分析方法论是一些营销管理相关的理论,比如用户行为理论,PEST分析法,5W2H分析法等
2.数据收集
可用的数据:业务数据,日志数据,爬虫数据,互联网公开数据
3.数据处理
主要包括:数据清洗,数据转化,数据提取,数据计算
主要为保证数据的有效性和一致性
4.数据分析
对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
5.数据展现
又称为数据可视化,指的是分析结果图表展示
Ps.数据分析的结果不止可以可视化展示,还可以继续进行数据挖掘(Data Mining),即席查询(Ad Hoc)等
5.报告撰写
数据报告是对整个数据分析过程的总结与呈现,需要有明确的结论,最好有建议或解决方案
三、分布式与集群
1.分布式
多台机器,每台机器上部署不同组件
2.集群
多台机器,每台机器上部署相同组件
Linux内核(Kernel):操作系统的核心部分简称内核
Linux发行版本:基于Linux内核与各种常用软件结合的产品,现大致可以分为个人桌面版和企业服务器版,个人桌面版中Ubuntu成度高,Redhat(红帽系列)及其延伸版本(CentOS)凭借稳定在企业服务器中占比大
四、VMware介绍
VMware Workstation是一款虚拟机软件,允许用户将Linux、windows等多个操作系统作为虚拟机在单台pc上运行