大数据
我顶得了
这个作者很懒,什么都没留下…
展开
-
【大数据】Spark与Flink的优劣
前言一些处理框架可同时处理批处理和流处理工作负载。这些框架可以用相同或相关的组件和API处理两种类型的数据,借此让不同的处理需求得以简化。这一特性主要是由Spark和Flink实现的,下文将介绍这两种框架。实现这样的功能重点在于两种不同处理模式如何进行统一,以及要对固定和不固定数据集之间的关系进行何种假设。虽然侧重于某一种处理类型的项目会更好地满足具体用例的要求,但混合框架意在提供一种数据处理的通用解决方案。这种框架不仅可以提供处理数据所需的方法,而且提供了自己的集成项、库、工具,可胜任图形分析、机原创 2020-11-12 21:17:25 · 2299 阅读 · 0 评论 -
【大数据】流处理及其相关框架
https://www.jianshu.com/p/5cc07eae1a0c原创 2020-11-12 20:57:47 · 1178 阅读 · 0 评论 -
【大数据】批处理与Hadoop
批处理系统:批处理主要操作大容量静态数据集(有边界数据),并在计算结束后返回结果。批处理模式中使用的数据集通常符合以下特征:有界:数据是限的持久:数据通常存储在某种持久存储中大量:批处理是处理极为海量数据集的唯一方法批处理非常适合需要访问全套记录才能完成的计算工作,例如计算总数以及平均数。但是不适合对处理时间要求较高的场合,因为处理大量数据通常需要大量的时间。Apache HadoopApache Hadoop是一种专用于批处理的处理框架。Hadoop是首个在开源社区获得极大关注的大数据原创 2020-11-04 20:14:40 · 1638 阅读 · 0 评论 -
【大数据】无边界数据和有边界数据,流数据和静态数据
无边界数据(流数据):无边界数据是一种不断增长,没有边界的数据集合,这类数据无法判断何时终止,也称为流数据,如:电商交易数据,PM2.5检测等等。特点:数据快速持续到达,潜在大小也许是无穷无尽的数据来源众多,格式复杂数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储注重数据的整体价值,不过分关注个别数据数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序有边界数据(静态数据):这种数据更常见于已经保存好了的数据中。例如,数据库中的数据,或者是我们常原创 2020-11-03 21:22:00 · 3053 阅读 · 0 评论 -
【概念】大数据相关名词
hive:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hdfsHDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.用来存储大量数据。特点:1.易于扩展的分布式文件系统2.运行在大量普通廉价机器上提供容错机制3.为大量用户提供性能不错的存取服务hdfs介绍hadoophadoop是一种分析和处理大数据的软件平台,是Appach的一..原创 2020-10-29 19:57:39 · 455 阅读 · 0 评论