大数据导论

目录

1.什么是大数据?

2.数据分析的作用

3.数据分析的基本步骤

4.大数据特点:

5V特征:

5.大数据的应用场景

6.分布式和集群


1.什么是大数据?

数据:存储在计算机中的文档,音频,视频,数据

大:数据的体量大

2.数据分析的作用

数据分析的目的是将隐藏在数据背后的信息集中起来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。

数据分析的三大作用:

1.现状分析:分析当下的数据,分析当下企业的运营状态

2.原因分析:分析过去的数据。通过现状分析得知当下的运营状态,但是不知道是什么原因引起的,这个时候就需要进行原因分析,进一步确定变动的具体原因

3.预测分析:结合数据预测未来。在了解完企业运营现状之后,需要对企业未来发展趋势做出预测。

3.数据分析的基本步骤

《数据分析六部曲》中说,典型的数据分析应该包含以下几个步骤:

1.明确分析的目的和思路。

2.数据采集:

        数据的来源可以有:业务数据库,日志数据,市场反馈等。

        可以使用的技术有:爬虫,kettle,sqoop,datax

3.数据处理:

        数据处理的基本目的是从大量的杂乱无章的数据中,抽取出有价值的 有意义的数据。

        采集来的数据有可能包括一些脏数据。需要处理一些如空值,无意义的数据等

        包括:数据清洗,数据转换,数据提取,数据计算

        使用的技术:kettle,sqoop,datax,python代码

4.数据分析:适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程

5.数据展示:将分析的结果可视化,就是数据可视化。将分析结果以更直观的方法展示出来 ,可以使用如pyecharts,finebi

6.撰写报告:上述实现数据分析的起因,过程,结果以及建议,记录下来,方便决策者参考和后续的回溯。

4.大数据特点:

数据量特别大, 海量的数据。

问题: 数据量很大,如何进行存储? 如何计算分析?

        可以使用分布式存储 分布式计算

5V特征:

1.数据体量大

2.数据来源种类多,多样化

3.数据的价值密度相对较低

4.数据增长速度快,处理速度也快,时效性要求较高

5.数据质量

5.大数据的应用场景

1.电商

2.传媒

3.金融

4.交通

5.电信

6.安防

6.分布式和集群

分布式系统:指一个硬件或软件,其组件会分布在不同的计算机上,彼此之间仅仅通过网络消息传递通信和协调的系统。

通俗来讲:比如有一个系统:有数据接收模块,数据处理模块,数据存储模块

                  单机模式;就是在一台电脑上面同时运行这三个模块,让这三个模块组成一个完整的系统。

                分布式:将这几个功能模块,分散在不同的服务主机上,通过网络连接,组成一个完整的系统。

集群就是:多台主机运行相同的服务,组成集群。

分布式存储:将一个大文件的数据,经过拆分成小的文件,分布存储在不同的服务器中。

分布式计算:计算任务比较大,将大的任务拆分成为小任务,交给不同的服务器去进行计算,计算完毕之后,再将结果同一起来。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值