2021-03-01

大数据简介

大数据概念:

1、数据量大
2、处理速度快: 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
3、结构复杂: 大数据是由结构化和非结构化数据组成的
4、价值密度低: 价值密度低,商业价值高

大数据影响:

在思维方式方面,大数据完全颠覆了传统的思维方式:
1、全样而非抽样
2、效率而非精确
3、相关而非因果

大数据技术:

1、数据采集: 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析
2、数据存储和管理: 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
3、数据处理与分析: 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
4、数据隐私和安全: 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

大数据关键技术: 分布式存储,分布式处理

代表性大数据技术: Hadoop,Spark,Flink,Beam

Spark简介

Spark最初由美国加州大学伯克利分校(UC Berkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序

Spark具有如下几个主要特点:

1、运行速度快: 使用DAG执行引擎以支持循环数据流与内存计算
2、容易使用: 支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程
3、通用性: Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件
4、运行模式多样: 可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值