十二呀呀呀-CSDN博客

原创 20210316设计模式之装饰者

当需要对对象添加功能或责任时，可以选择继承（容易类爆炸）或者修改类（不符合开闭原则），所以可以抽象出一个抽象的装饰类，继承被装饰对象的抽象父类，然后让装饰对象继承装饰类，在实现装饰类时将被装饰对象作为属性，装饰对象通过构造器将被装饰对象传给装饰类，那么这个装饰类对象实现了被装饰类对象的功能扩展。...

2021-03-16 09:12:34 104

原创 20210315工厂设计模式总结

1，简单工厂模式，将对象的创建交给工厂。2，工厂方法模式，将对象的创建方法抽象到抽象工厂类中，每一个对象一个工厂类和对象类。3，抽象工厂模式，将对象进行抽象，每一个工厂类可以创建一系列对象，也就是工厂簇。...

2021-03-15 10:49:53 102

原创 java动态绑定

简言之：进入那个类空间，就使用那个类的方法和属性。

2021-02-22 16:36:29 75

原创数据仓库-维度建模day03

以零售业务案例研究维度建模注意：不要以数据来驱动维度建模，需要综合考虑业务用户需求和数据来源的实际情况。1：第一步，选择业务过程对业务需求以及可用的数据源综合考虑，决定对那种业务过程开展建模工作。2：第二步，确认粒度以最低的原子粒度处理数据3：第三步，确认维度...

2020-12-28 11:15:35 97

事实表技术基础事实表结构：事实表行对应一个度量事件，反之亦然。可加，半可加，不可加事实。事实表中的空值：事实表中可以存在空值度量，但是外键中不能存在空值，若有则违背了参照完整性原则。https://blog.csdn.net/luomingkui1109/article/details/87812756维度建模设计的4步过程：1：第一步，选择业务过程业务过程是由组织完成的微观活动。业务过程通常用行为动词表示。业务过程通常由某个操作型系统支撑。业务过程建立或..

2020-12-10 10:56:05 69

原创数据仓库-维度建模day01

星型模型和olap多维数据库在关系数据库管理系统中实现的维度模型称为星型模型，在多维数据库环境中实现的维度模型通常称为联机分析处理olap。用于度量的事实表维度模型中的事实表存储组织机构业务过程事件的性能度量结果。“事实”这一术语表示业务度量。事实表中的每一行表示一个度量事件，每行中的数据是一个特定级别的细节数据，称之为粒度。维度建模的核心原则之一，同一事实表中的所有度量行都是相同的粒度。物理世界的每一个度量事件与对应的事实表行具有一一对应的关系，这是维度建模的基本原则。最实用的事实是.

2020-11-30 14:53:40 107

转载 spark rdd解析--rdd计算流程

RDDrdd是spark的核心数据结构，所有数据的计算操作都是基于此。直观上，RDD可理解为下图所示结构，即RDD包含多个Partition（分区），每个Partition代表一部分数据并位于一个计算节点。partition是一个逻辑概念，准确说partition是不包含数据的，真正持有数据的是iterable接口对象，用来计算的时候遍历数据。RDD本质上是Spark中的一个抽象类，所有子RDD（HadoopRDD、MapPartitionRDD、JdbcRDD等）都要继承并实现其中的方法。ab

2020-11-26 11:48:48 1149

原创 spark学习day02

RDD弹性的7个方面：rdd（弹性分布式数据集）1、自动进行内存和磁盘的数据存储切换。2、基于lineage（血统）的高效容错机制。3、task任务失败会进行特定次数的重试。4、stage失败也会进行特定次数的重试。5、checkpoint和persits（检查点和持久化），可主动或被动触发。6、数据调度弹性任务错误后可以让其它节点代替该故障节点进行。7、数据分片的高度弹性数据可以可以进行手动的数据分片。...

2020-11-24 09:27:57 168

原创 spark学习Day01

1、shuffle过程的数据会写磁盘，因为数据洗牌重组如果发往某一个节点的partition数据过多，就会造成OOM，当然如果写的cipa磁盘的小文件过多，太多的io会影响效率。2、每个stage的task数量由最后一个rdd的partition数量决定3、1：n关系一个app：多个job（job的个数由一个driver（main）中的action算子决定）一个job：多个stag...

2020-11-13 18:19:43 77

原创设计模式Day02

UML类图1、依赖类中用到了对方成员变量中用到了对方方法的参数中使用到了对方方法的返回值用到了对方方法体中使用到了对方2、泛化是依赖关系的特例，实际上就是继承。3、实现是依赖关系的特列，实际上就是实现。4、关联关系是依赖关系的特列，是类与类之间的联系，具有到航行：即单向关系或者双向关系。...

2020-11-13 18:19:09 61

原创 scala学习

AnVal(值类型)，AnyRef(引用类型)，都是对象

2020-11-13 18:17:56 74

原创设计模式学习Day01

设计模式常用七大原则：编写软件过程中，程序员面临着来自耦合性，内聚性以及可维护性，可扩展性，重用性，灵活性等多方面的挑战，设计模式是为了让程序(软件)，具有更好代码重用性 (即：相同功能的代码，不用多次编写) 可读性 (即：编程规范性, 便于其他程序员的阅读和理解)可扩展性 (即：当需要增加新的功能时，非常的方便，称为可维护) 可靠性 (即：当我们增加新的功能后，对原来的功能没有影响)使程序呈现高内聚，低耦合的特性1、单一接口原则一个类只负责一项职责，例如地上行驶的...

2020-11-09 10:52:59 50

原创 2020-03-25 spark问题总结

在数据导入中用到了udf自定义函数，写方法的过程中因为java习惯写了return语句，导致task无法序列化，无法由driver传入excutor。fastjson解析json数组，spark可以用flatmap做hive中的explode...

2020-03-25 22:15:07 178

转载 Scala 下划线(_) 用法汇总

Scala 下划线(_)https://blog.csdn.net/lsgqjh/article/details/86078366 用法汇总

2020-02-21 15:07:52 261

转载 Spark：spark集群中什么是cpu-core 内核？RDD分区个数？集群的节点个数？及三者与并行度的关系

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数X 超线程数梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当...

2020-02-18 09:35:26 403

转载 scala的class、object、trait的区别和联系

class：在scala中，类名可以和对象名为同一个名字，该对象称为该类的伴生对象，类和伴生对象可以相互访问他们的私有属性，但是他们必须在同一个源文件内。类只会被编译，不能直接被执行，类的申明和主构造器在一起被申明，在一个类中，主构造器只有一个所有必须在内部申明主构造器或者是其他申明主构造器的辅构造器，主构造器会执行类定义中的所有语句。scala对每个字段都会提供getter和setter方法，...

2020-01-16 15:10:29 264

转载一、大数据学习之路——探索性数据分析（EDA）

定义：对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。数据类型：https://blog.csdn.net/Shingle_/article/details/80035405数据类型是统计学中的重要概念，我们需要对它有正确的理解方能利用正确的数据类型来获得结论。这篇文章将介绍几...

2020-01-03 19:40:31 1215

weixin_41662838的博客