大数据算法学习笔记(四):数据流模型

最新推荐文章于 2024-07-14 15:36:47 发布

克莉丝汀娜

最新推荐文章于 2024-07-14 15:36:47 发布

阅读量2.7k

点赞数 1

分类专栏：大数据算法

本文链接：https://blog.csdn.net/u014679804/article/details/47701559

版权

大数据算法专栏收录该内容

7 篇文章 5 订阅

订阅专栏

一、数据流模型：

1、数据只能顺序扫描1次或几次。(超过O(n)的算法不可行)

2、能够使用的内存是有限的。(空间亚线性)

3、希望通过维护一个内存结果来给出相关性质的一个有效估计。

二、基础知识：

1、频繁元素：数据流中同一个元素可以出现多次，出现最频繁的元素。

n:不同元素个数。

m:数据流中元素个数。

2、zipf原则：典型的概率分布是高度倾斜的。只有少数是频繁元素

三、算法与分析：

Misra Gries(MG)算法：

处理元素x

已经为x分配计算器，增加之

没有相应计数器，但计数器的个数小于k，为x分配计数器，并设为1；否则，所有计数器减1，删除值为0的计数器。

统计x出现几次？

不精确估计：存在x的计数器，返回其值；否则，返回0.

精确估计：

设所有计数器的和为m',整个数据流的权重为m。

每一次计数器降低的步骤减少k个计数，同时并未记录此时输入的元素，即K+1次未计入。

最多有(m-m')/(k+1)个减少步骤。

估计值和真实值最多相差(m-m')/(k+1)

错误的界限和k成反比。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

克莉丝汀娜

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

2021年全网最细大数据学习笔记（一）：初识 Hadoop

Amo Xiang的博客

04-04

4万+

文章目录一、大数据1、大数据的定义2、大数据的特点3、大数据行业应用4、Hadoop 与大数据5、其他大数据处理平台6、大数据人才三、一、大数据 随着近来计算机技术和互联网的发展，大数据 这个名词越来越多地进入到我们的视野中，大数据的快速发展也无时刻影响着我们的生活。 1、大数据的定义 大数据从字面来理解就是大量的数据。日常生活离不开数据，可以说每时每刻都在产生着数据。例如，一分钟可以做些什么事呢？在日常生活中，一分钟可能连一页书都看不完。但是一分钟内产生的数据却是庞大的。据统计，在一分钟内，YouTu

数据研发学习笔记4.11：大数据之数据可视化

weixin_41961559的博客

05-18

4043

文章目录1 可视化概述1.1 什么是数据可视化1.2 可视化的发展历程1.3 可视化的重要作用2 可视化工具2.1 入门级工具2.2 信息图表工具2.3 地图工具2.4 时间线工具2.5 高级分析工具3 可视化典型案例3.1 全球黑客活动3.2 互联网地图3.3 编程语言之间的影响力关系图3.4 百度迁徙3.5 世界国家健康与财富之间的关系3.6 3D可视化互联网地图APP4 可视化工具实践4.1 D3可视化库使用指南4.2 Easel.ly信息图制作实践4.3 数据可视化之魔镜4.4 数据可视化之ECha

2 条评论您还未登录，请先登录后发表或查看评论

大数据开发实战：数据流图及相关数据技术

weixin_45732643的博客

10-24

2014

1、大数据流程图 2、大数据各个环节主要技术在这里还是要推荐下我自己建的大数据学习交流群:9437**91324，群里都是学大数据开发的，如果你正在学习大数据 ，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入。 2.1、数据处理主要技术 ...

流数据模型

tsundere_x的博客

12-08

1137

流数据模型和传统的关系模型（Relational Model）有几个重要的区别：（1） 数据流的数据元素持续到达（2）流数据处理系统不能控制数据元素到达的顺序（3） 数据流有可能是无限的，或者说数据流的大小是无限大（Infinite）（4） 数据流的一个数据元素被处理后，可以丢弃或者归档（Archived），一般不容易再次提取，除非目前该数据元素还在内存中。能够保存在内存中的数据元素，相对整个数据流来讲是极少量的数据。在关系数据库的数据模型里，数据以元组（记录）的形式组织在关系中。我们可以对这些

形式化语义中数据流模型和控制流模型详解

最新发布

xhdll的博客

07-14

1022

模型驱动开发在嵌入式系统领域中被广泛使用，它具有低代码、不易出错、容易仿真和验证的特点。

数据流编程模型

fallenjency的博客

06-27

2244

抽象层次 Flink提供不同级别的抽象来开发流/批处理应用程序最低级抽象只提供有状态流，它通过Process Function嵌入到DataStream API中。它允许用户自由处理来自一个或多个流的事件，并使用一致的容错状态。此外，用户可以注册事件时间和处理时间回调，允许程序实现复杂的计算。实际上，大多数应用程序不需要上述低级抽象，而是针对Core API编程，如DataStream...

数据流模型——【数据科学与工程算法基础】

weixin_73074505的博客

04-01

374

界标模型（规定不同数据段重要性）；滑动窗口（只考虑窗口元素）；衰减窗口（新到重要，旧者重要程度低）。既然概要了，就不可能很精确，只能近似估计，近似算法就相当于一种误差的评估。保存数据流再查询不可能，需要一种远小于数据流规模的数据结构来。收银机（前缀和，不断叠加）；十字转盘（加入的数据有正有负）。一个∈代表相对误差，输出值与真值相差小于∈乘以真值。一个∈就是一个值，输出值与真值相差小于∈。，如直方图、抽样、小波、哈希。

大数据时代之hadoop(三)：hadoop数据流（生命周期）

星空的专栏

10-15

7686

了解hadoop，首先就需要先了解hadoop的数据流，就像了解servlet的生命周期似的。hadoop是一个分布式存储（hdfs）和分布式计算框架（mapreduce），但是hadoop也有一个很重要的特性：hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。

大数据学习笔记之Spark：Spark基础解析

大数据Spark教程

12-20

492

第1章Spark概述 spark的产生背景 spark是如何产生的，这要先送大数据说起，大数据是如何产生的？Google就是处理大数据的，网页和网页之间有很多的关联关系，为了处理排序啊这些算法，所以Google就发明了，Google就发布了三个论文，基于这三个论文的开源，实现了Hadoop、Hdfs、MapReduce、Hbase等，但是感觉好像每次MapReduce只能处理一次数据...

大数据学习笔记汇总指南

03-28

这份“大数据学习笔记汇总指南”涵盖了大数据技术栈中的关键组件，包括Hadoop、Hive、Spark、Storm、Flink以及HBase。让我们逐一深入探讨这些技术及其在大数据生态系统中的作用。一、Hadoop Hadoop是Apache基金会...

大数据技术原理学习笔记.docx

11-06

Pig则是一种高级数据流语言，简化了在Hadoop上构建大规模数据处理应用程序的过程。 大数据的应用领域广泛，包括但不限于商业智能、推荐系统、金融风控、医疗健康、城市智慧化等。例如，通过对用户行为数据的分析，...

flink实战--数据流编程模型(Dataflow Programming Model)

zg_hover的专栏

01-23

917

概述本文讲述flink的数据流编程模型，通过本文的讲述可以对flink的编程模型有一个清楚的认识，便于在编写flink程序时，进行选择使用。另外，本文是一篇翻译文章，来自于flink的官方文档。见参考文献。译者注：本文介绍了flink对外提供的不同层次的编程接口，和spark类似，flink对外提供了三种层次的编程接口：core API，Table API，SQL。 core API：提供...

大数据：数据流挖掘

chenglinhust的专栏

02-23

1450

大数据：数据流挖掘下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第四章的总结。 1 流数据模型：数据以某种速率达到处理引擎，该速率使得无法在当前内存存储数据。流处理一种策略是保留流的概要信息，使之足够回答数据的期望的查询。另一种是维持最近到达数据的滑动窗口。 2 流抽样：为创建某类查询创建的流样本。确定流中关键属性集合。对任一到达流的键值进行哈希处理，使用

大数据场景和数据流

03-27

1331

https://bigdata.djbook.top/

flink学习笔记（一）——数据流编程模型

qq_32971807的博客

01-03

3881

flink学习笔记（一）——数据流编程模型flink官方文档学习笔记，本文主要是flink一些基础概念数据流编程模型（Dataflow Programming Model）抽象等级(Levels of Abstraction)Flink提供不同级别的抽象来开发流/批处理应用程序。 Statefule Stream Processing:是最低级别（底层）的抽象，只提供有状态的流。它通过Process

过程建模之数据流图

鹜骜的博客

10-21

3459

简介 数据流图是过程建模所使用的主要建模技术。它的建模所使用的基本模型元素有4种：外部实体、过程、数据流和数据存储。过程建模的简介过程建模就是通过分析需求获得信息，发现系统的功能及其与外界的交互（外界提供数值输入或者将数据结果提供给外部实体），建立能够实现系统功能的过程分解...

图数据流的模型、算法和系统

weixin_45585364的博客

11-01

1519

图数据流的模型、算法和系统李友焕, 邹磊北京大学计算机科学技术研究所，北京 100080摘要：在应用数据高速增长的场景下，已有的静态图计算的模型和方法难以应对数据高速更新...

实时技术之流式数据模型

xu704928452的博客

10-31

1529

实时建模与离线建模类似，也需要对数据进行建模，进行数据分层处理数据分层： 1）ODS层：与离线系统类似，操作数据层。记录了原始数据的变更过程，例如订单变更数据以及服务器日志数据 2）DWD层：实时明细层，对于没有上下文关系的数据会回流到离线系统，保证了ODS层与DWD层数据一致性 3）DWS层：通用维度数据汇总层，供各业务共同使用 4）ADS层：个性化维度会汇总层，针对单个业务所关注的维度各指标...

实时数仓：流式数据建模

pengpengsays

01-05

1358

流式数据模型架构设计数据模型设计是贯穿数据处理过程的，在实时流式数据处理中也一样。实时建模与离线建模类似，数据模型整体上分为5层（ODS、DWD、DWS、ADS、DIM）。其中ODS数据属于操作数据层，是直接从业务系统采集来的原始数据。在这一层上，数据与离线系统是一致的。 ODS层实时进入的数据，会进行去重、清洗等任务，适度做一些维度退化工作，清洗后的数据会存放到DWD层中，DWD数据明细层的数据会回流到消息队列中，从而实时同步到下游实时任务中，同时会持久化到数据库中供离线系统使用。一般而言，OD

大数据与算法精要：从基础到深度学习

"本书是大数据实战全栈式工程师的成长修炼笔记，涵盖了大数据技术、机器学习算法和深度学习等内容。书中详细介绍了Scala编程语言，包括基本语法、函数式编程、类和对象等，并涉及Hadoop、Spark、Alluxio、Hive、...