自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (2)
  • 收藏
  • 关注

原创 Flink之窗口的使用(java)

Flink之窗口的使用前言我们前面其实一直都有在使用窗口,那么我们现在来针对窗口的各种类型做一个演示。1.1 窗口简述聚合事件(比如计数、求和)在流上的工作方式与批处理不同。比如,对流中的所有元素进行计数是不可能的,因为通常流是无限的(无界的)。所以,流上的聚合需要由 window 来划定范围,比如 “计算过去的5分钟” ,或者 “最后100个元素的和” 。window是一种可以把无限数据切割为有限数据块的手段。1.2 窗口类型tumbling window:滚动窗口sliding w

2020-11-24 17:39:58 1076

原创 常用的HTTP请求头与响应头

常用的HTTP请求头与响应头 ...

2020-05-17 11:58:34 359

大数据spark学习之rdd概述

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Java、Scala 中任意类型的对象, 甚至可以包含用户自定义的对象。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。

2020-05-03

离线-day10.pdf

-数据仓库-基本概念和主要特征 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环 境,为企业提供决策支持(Decision Support)。 数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供 分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。 可以理解为:面向分析的存储系统。 特征 面向主题(Subject-Oriented ) 数据仓库通过一个个主题域将多个业务系统的数据加载到一起,为了各个主题(如:用户、订单、 商品等)进行分析而建,操作型数据库是为了支撑各种业务而建立。 集成性(Integrated) 数据仓库会将不同源数据库中的数据汇总到一起,数据仓库中的综合数据不能从原有的数据库系统直 接得到。因此在数据进入数据仓库之前,必然要经过统一与整合,这一步是数据仓库建设中最关 键、最复杂的一步(ETL),要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统 一、字长不一致,等等。(业务系统的数据、业务日志、三方数据、其他官方数据)(灰色数据) 非易失性(Non-Volatile) 在数据仓库中只要保存过去的业务数据,不需要每一笔业务都实时更新数据仓库,而是根据商业需 要每隔一段时间把一批较新的数据导入数据仓库。 时变性(Time-Variant ) 数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或 者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模 式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只 能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要定时更 新,以适应决策的需要。

2020-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除