目录
1.什么是大数据?
数据:存储在计算机中的文档,音频,视频,数据
大:数据的体量大
2.数据分析的作用
数据分析的目的是将隐藏在数据背后的信息集中起来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。
数据分析的三大作用:
1.现状分析:分析当下的数据,分析当下企业的运营状态
2.原因分析:分析过去的数据。通过现状分析得知当下的运营状态,但是不知道是什么原因引起的,这个时候就需要进行原因分析,进一步确定变动的具体原因
3.预测分析:结合数据预测未来。在了解完企业运营现状之后,需要对企业未来发展趋势做出预测。
3.数据分析的基本步骤
《数据分析六部曲》中说,典型的数据分析应该包含以下几个步骤:
1.明确分析的目的和思路。
2.数据采集:
数据的来源可以有:业务数据库,日志数据,市场反馈等。
可以使用的技术有:爬虫,kettle,sqoop,datax
3.数据处理:
数据处理的基本目的是从大量的杂乱无章的数据中,抽取出有价值的 有意义的数据。
采集来的数据有可能包括一些脏数据。需要处理一些如空值,无意义的数据等
包括:数据清洗,数据转换,数据提取,数据计算
使用的技术:kettle,sqoop,datax,python代码
4.数据分析:适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
5.数据展示:将分析的结果可视化,就是数据可视化。将分析结果以更直观的方法展示出来 ,可以使用如pyecharts,finebi
6.撰写报告:上述实现数据分析的起因,过程,结果以及建议,记录下来,方便决策者参考和后续的回溯。
4.大数据特点:
数据量特别大, 海量的数据。
问题: 数据量很大,如何进行存储? 如何计算分析?
可以使用分布式存储 分布式计算
5V特征:
1.数据体量大
2.数据来源种类多,多样化
3.数据的价值密度相对较低
4.数据增长速度快,处理速度也快,时效性要求较高
5.数据质量
5.大数据的应用场景
1.电商
2.传媒
3.金融
4.交通
5.电信
6.安防
6.分布式和集群
分布式系统:指一个硬件或软件,其组件会分布在不同的计算机上,彼此之间仅仅通过网络消息传递通信和协调的系统。
通俗来讲:比如有一个系统:有数据接收模块,数据处理模块,数据存储模块
单机模式;就是在一台电脑上面同时运行这三个模块,让这三个模块组成一个完整的系统。
分布式:将这几个功能模块,分散在不同的服务主机上,通过网络连接,组成一个完整的系统。
而集群就是:多台主机运行相同的服务,组成集群。
分布式存储:将一个大文件的数据,经过拆分成小的文件,分布存储在不同的服务器中。
分布式计算:计算任务比较大,将大的任务拆分成为小任务,交给不同的服务器去进行计算,计算完毕之后,再将结果同一起来。