2021-03-01

最新推荐文章于 2021-09-15 16:00:38 发布

ゞ╃晓．﹎

最新推荐文章于 2021-09-15 16:00:38 发布

阅读量109

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52232437/article/details/114262268

版权

笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

大数据简介

大数据概念：

1、数据量大
2、处理速度快：从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少
3、结构复杂：大数据是由结构化和非结构化数据组成的
4、价值密度低：价值密度低，商业价值高

大数据影响：

在思维方式方面，大数据完全颠覆了传统的思维方式：
1、全样而非抽样
2、效率而非精确
3、相关而非因果

大数据技术：

1、数据采集：利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等，抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础；或者也可以把实时采集的数据作为流计算系统的输入，进行实时处理分析
2、数据存储和管理：利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等，实现对结构化、半结构化和非结构化海量数据的存储和管理
3、数据处理与分析：利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析；对分析结果进行可视化呈现，帮助人们更好地理解数据、分析数据
4、数据隐私和安全：在从大数据中挖掘潜在的巨大商业价值和学术价值的同时，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全

大数据关键技术：分布式存储，分布式处理

代表性大数据技术： Hadoop，Spark，Flink，Beam

Spark简介

Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序

Spark具有如下几个主要特点：

1、运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
2、容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
3、通用性： Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
4、运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

ゞ╃晓．﹎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-03-01

大数据简介大数据概念：1、数据量大2、处理速度快：从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少3、结构复杂：大数据是由结构化和非结构化数据组成的4、价值密度低：价值密度低，商业价值高大数据影响：在思维方式方面，大数据完全颠覆了传统的思维方式：1、全样而非抽样2、效率而非精确3、相关而非因果大数据技术：1、数据采集：利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等，抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为
复制链接

扫一扫

专栏目录

ゞ╃晓．﹎ CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

116万+: 周排名

206万+: 总排名

503: 访问

: 等级

71: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

分类专栏

笔记 7篇

最新评论

2020-11-17
不正经的kimol君: 厉害，赞一个,欢迎回赞哦~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。