chengruru-CSDN博客

原创数据仓库建模的目标

数据仓库建模目标1、访问性能能够快速查询需要的数据，减少数据I/O；构建数据仓库不只是为了集成数据，而集成数据讲究的是一个方法。集成数据的同时要考察的是一个快速查询出需要的数据，有效减少使用数据时带来的磁盘IO。2、数据成本减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本；基于大数据的仓库建模，数据量是偏大的。所以，我们需要考虑数据成本。存储成本、计算成本，还有用户使用的成本。3、使用效率改善用户体验，提高使用数据的效率；4、数据质量改善数据统计口径的不

2021-03-30 22:07:32 750

原创什么是数据仓库

在介绍数据仓库之前，我们先来看一下数据库。1、什么是数据库什么是数据库？数据库(Database)是按照数据结构来组织、存储和管理数据的，建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。那么，什么是数据仓库呢？2、什么是数据仓库？数据仓库：数据仓库是面向主题的，集成的，相对稳定的，反映历史变化的数据集合，用于

2021-03-27 10:55:39 3494 1

原创 [Hive]表生成函数(UDTF)使用指南

UDTF是User-Defined Table-Generating Functions 的缩写，即用户定义的表生成函数。UDTF 用于从原始表中的一行生成多行数据。典型的 UDTF有EXPLODE、posexplode等函数，它能将array或者map展开。表生成函数和聚合函数是相反的，表生成函数可以把单列扩展到多列。表生成函数：可以理解为一个函数可以生成一个表。1、explode函数-行转列explode函数以array类型数据输入，然后对数组中的数据进行迭代，返回多行结果，一行一个数组元素值。

2021-03-25 01:23:19 6644 2

翻译 [Hive]子查询使用指南

1、在from语句中使用子查询Hive在0.12版本后就支持了from条件中子查询，例如：SELECT ... FROM (subquery) name ...SELECT ... FROM (subquery) AS name ... (Note: Only valid starting with Hive 0.13.0)但是在from语句中使用子查询，必须给子查询一个名称，因为 FROM 子句中的每个表都必须有一个名称。子查询选择列表中的列必须具有唯一的名称。子查询选择列表中的列在外部查

2021-03-23 22:30:54 7133

翻译 DataStream API编程指南之Connectors概述（十一）

DataStream API编程指南之Connectors概述（十一）1、预定义的Sources和Sinks2、Boundled连接器3、Apache Bahir中的连接器4、连接Flink的其他方式（1）通过异步I/O扩展数据（2）可查询状态1、预定义的Sources和SinksFlink内置了一些基本的数据源和接收器，并且总是可用的。预定义的数据源包括从文件、文件夹、scoket和读取数据，集合和迭代器中读取数据。预定义的数据Sinks支持写入文件、stdout和stderr，以及套接字。2、Bo

2020-06-13 17:28:23 195

翻译 DataStream API编程指南之Windows编程（十）

DataStream API编程指南之Windows编程（十）1、窗口生命周期2、Keyed vs Non-Keyed Windows3、窗口分配器（Window Assigners）（1）tumbling windows, 滚动窗口（2）sliding windows, 滑动窗口（3）session windows, 会话窗口（4）global windows，全局窗口4、Window Functions（1）Reducfunction（2）AggregateFunction（3）FoldFunction

2020-06-12 11:40:03 299

翻译 DataStream API编程指南之Event Time（九）

DataStream API编程指南之Event Time类型（九）1、Processing time - 处理时间2、Ingestion Time - 摄取时间3、Processing Time - 处理时间4、设置时间特性5、Event Time and Watermarks6、并行流中的水位线7、末元素8、闲置资源在Flink的流式处理中，会涉及到时间的不同概念，如下图所示：在上图中，有一个Event产生器，从日志生成的角度来看，若是我们通过手机打开了一个今日头条的消息，此时会产生一条与用户相

2020-06-11 17:27:04 272

翻译 DataStream API编程指南之Data Sinks（八）

sink使用数据流并将其转发到文件、sockets、外部系统或打印。Flink提供了多种内置的输出格式，这些格式被封装在对数据流的操作中:writeAsText() / TextOutputFormat -以字符串的形式逐行写入元素。字符串是通过调用每个元素的toString()方法获得的。writeAsCsv(...) / CsvOutputFormat - 以逗号分隔值文件的形式写入元组。行和字段间的分隔符是可以配置的。每个字段的值可以通过对象.toString()方法获取。print() /

2020-06-10 23:54:04 230

翻译 DataStream API编程指南之Data Sources（七）

DataStream API编程指南之Data Sources（七）1、基于文件方式2、基于Socket方式3、基于集合方式4、自定义方式（1）自定义非并行化源（2）自定义可并行化源-实现ParallelSourceFunction接口方式（3）自定义可并行化源-继承RichParallelSourceFunction类方式Sources 是程序读取输入的地方。通过使用StreamExecutionEnvironment.addSource(sourceFunction)，可以添加一个数据源到你的程序中。

2020-06-10 23:45:31 369

原创 DataSet API编程指南之计数器和分布式缓存（六）

DataSet API编程指南之计数器和分布式缓存（六）1、计数器2、分布式缓存1、计数器需求：统计DataSet中元素的数量。常规实现思路：object CounterApp { def main(args: Array[String]): Unit = { val env: ExecutionEnvironment = ExecutionEnvironment .getExecutionEnvironment val dat

2020-06-10 17:40:42 143

翻译 DataSet API编程指南之Data Sink（五）

Source 就是数据的来源，中间的 Transformations其实就是具体的处理逻辑，进行一系列的转换，最后，将结果 Sink 到目的地，或者说存储到某个地方。writeAsText() / TextOutputFormat - 以字符串的形式逐行写入元素。字符串是通过调用每个元素的*toString()*方法获得的。writeAsCsv(...) / CsvOutputFormat - 以逗号分隔值文件的形式写入元组。行和字段间的分隔符是可以配置的。每个字段的值可以通过对象.toString.

2020-06-10 15:51:14 335

翻译 DataSet API编程指南之Transformations（四）

DataSet Transformations1、Map2、FlatMap3、MapPartition4、Filter 过滤5、Reduce6、ReduceGroup7、Aggregate8、Distinct9、Join10、OuterJoin11、CoGroup12、Cross13、Union14、Rebalance15、Hash-Partition16、Range-Partition17、Custom Partitioning18、Sort Partition19、First-nFlink 程序是实

2020-06-10 15:27:53 164

翻译 DataSet API编程指南之Data Sources（三）

Data Sources1、Data Source创建（1）基于文件的创建方式（2）基于集合的创建方式（常用于学习、测试）（3）使用介绍2、配置CSV解析参数3、递归读取输入路径下的文件4、读取压缩文件内容Data Sources也就是数据来源的意思。数据源可以从文件或者Java集合中创建初始数据集。创建数据集的一般机制被抽象为InputFormat。Flink提供几种内置格式，可以从常见的文件格式创建数据集。这些文件格式在ExecutionEnvironment中都有相应的快捷创建方式。1、Data

2020-06-10 14:59:32 383

原创 Flink的特点（二）

Flink的特点1、事件驱动型（Event-Driven）2、流与批3、分层API4、支持有状态计算5、支持exactly-once语义6、支持事件事件（Event Time）1、事件驱动型（Event-Driven）事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以kafka为代表的消息队列几乎都是事件驱动型应用。与之不同的就是SparkStreaming微批次。（1）微批次型（2）事件驱动型2、流与批批处

2020-06-07 00:48:18 290

翻译 Flink简介（一）

Flink简介一、Architecture 架构1、处理无界数据和有界数据2、部署应用到任意地方3、运行任意规模的程序4、利用内存性能二、Application 应用1、Building Blocks for Streaming Applications（1）Streams 流（2）State 状态（3）Time 时间2、分层API三、Operations1、Run Your Applications Non-Stop2、Update, Migrate, Suspend, and Resume Your A

2020-06-07 00:10:00 400

原创 Maven项目如何使用github上已有的开源项目

这里写自定义目录标题Maven项目如何使用github上已有的开源项目新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Maven项目如何使用github上已有的开源项目你好！这是你第一次使用 Markdown编辑器所

2020-06-05 09:40:13 2044

开嘴的板栗