wan15225656187-CSDN博客

原创 ClickHouse解析

ClickHouse是一个快速开源的OLAP数据库管理系统，它是面向列的，允许使用SQL查询实时生成分析报告。OLAP全称是On-Line Analytical Processing，是一种联机分析处理数据库，一般用于数据仓库或者大数据分析处理，这种类型的数据库在事务能力上很弱，但是在分析的场景下很强大。列式数据库的优势：1.针对分析类查询，通常只需要读取表的一小部分列，减少io消耗2.由于数据总是打包成批量读取的，所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。

2023-09-24 23:57:57 196 1

原创 ClickHouse简介（1）

ClickHouse 是俄罗斯的Yandex 与2016年开源的雷士存储数据库（DBMS），使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析的数据报告。【其中列式存储如HBase】（MySQL属于行式存储）OLTP：想MySQL这样的可以更改数据（增删改查）的数据库OLAP:一次插入，多次查询，更新、删除就不擅长】

2023-09-22 18:09:49 199

原创 Spark中的常用算子

RDD算子也分为lazy与non-lazy两种Transformation （lazy）：也称为转换操作，转换算子Actions （non-lazy）：立即执行，也称之为动作操作，动作算子。

2023-09-20 20:23:26 196 1

原创 Spark性能调优

Spark性能调优的第一步，就是微任务分配更多资源，在一定范围内，增加资源的分配与性能的提升是正比的，实现了最优的资源配置后，在此基础上在考虑进行后面论述的性能调优策略。其中名称调节原则：尽量将任务分配的资源调节到可以使用的资源的最大限度。

2023-09-19 20:17:59 148

原创 Spark Core & SQL

1、Local：运行在一台机器上，通常是练手后者测试环境2、Standalone：构建一个基于Master+Slaves的资源调度集群，Spark任务提交给Master运行。是Spark 自身的一个调度系统。3、Yarn：Spark客户端直接连接Yarn，不需要额外构建Spark集群。优 Yarn-client 和Yarn-cluster 两种模式，主要区别在于：Driver程序的运行节点。

2023-09-18 22:40:20 74

原创 Spark内核解析

luster），Master在接到Driver注册Spark应用程序的请求后，会获取其所管理的剩余资源能够启动一个Executor的所有Worker，然后在这些Worker之间分发Executor，此时的分发只考虑Worker上的资源是否足够使用，直到当前应用程序所需的所有Executor都分配完毕，Executor反向注册完毕后，Driver开始执行main程序。，在任务执行的过程中，Executor也会不断与Driver进行通信，报告任务运行情况。，taskset中有多个task，根据本地化原则，

2023-09-17 22:39:37 109 1

原创 Redis数据库

Redis服务器程序是单进程模型，也就是在一台服务器上可以同时启动多个Redis进程，Redis的实际处理速度则是完全依靠于主进程的执行效率。若在服务器上只运行一个Redis进程，当多个客户端同时访问时，服务器的处理能力是会有一定程度的下降若在同一台服务器上开启多个Redis进程，Redis在提高并发处理能力的同时会给服务器的CPU造成很大压力。在实际生产环境中，需要根据实际的需求来决定开启多少个Redis进程。若对高并发要求更高一些，可能会考虑在同一台服务器上开启多个进程。

2023-09-13 20:16:51 105 1

原创 RDD和DataFrame和DataSet三者的共性以及区别

1、RDD、DataFrame、DataSet全都是Spark平台下的分布式弹性数据集，为处理超大行数据提供便利2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里有创建、转化，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过。3、三者都会根据Spark的内存情况自动缓存运算，这样即使数据很大，也不用担心内存溢出4、三者都有partition的概念5、三者都有许多共同的函数。

2023-09-12 14:55:07 124

原创 RDD和DataFrame和DataSet三者的区别

与RDD类似，DataFrame也是一个分布式数据容器，然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。DataFrame只是知道字段，但是不知道字段的类型，所以在执行这些操作的时候是没办法在编译的时候检查是否类型失败的，比如你可以对一个String进行减法操作，在执行的时候才报错，而DataSet不仅仅知道字段，而且知道字段类型，所以有更严格的错去检查。Row是一个类型，跟Car、Person这样的类型一样，所有的表结构信息我都用Row来表示。

2023-09-11 19:56:31 135

原创 Spark介绍（2）

比如，Spark可以使用Hadoop的YARN和Apache Mesos 作为它的资源管理和调度器，并且可以处理所有的Hadoop 支持的数据，包括 HDFS、HBase和Cassandra等。Spark也可以不依赖于第三方的资源管理器和调度器，它实现了Standalone 作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛是的所有人都可以非常容易得部署和使用Spark。Spark实现了高效的DAG（有向无环图）执行引擎，可以通过基于内存来高效的处理数据流，计算的中间结果是存在内存中的。

2023-09-11 14:40:38 62

原创 Spark介绍（1）

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLad，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apart顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。

2023-09-10 22:43:03 240 1

原创 Spark Scala中object、class和trait的去别

4.如果再累中声明了与该类相同的object，则该object是该类的“伴生对象”，可以理解把类中的static集中放到了object对象中，伴生对象和类文件必须是同一个源文件，可以用伴生对象做一些初始化的操作。5.对象的构造器在第一次使用的时候会被调用，如果一个对象从未内使用，那么他的构造器也不会被执行；2.类只会被编译，不能直接被执行，类的申明和主构造器在一起被申明，在一个类中，主构造器只有一个所必须在内部申明主构造器或者是其他申明主构造器的辅助构造器，主构造器会执行类定义中的所有语句。

2023-09-09 20:07:00 220 1

原创 RDD概述

RDD（Resilient Distributed Dataset）叫做分布是数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark中，对数据的所有操作不外乎创建RDD、转换（算子）已有的RDD以及调用RDD操作进行求值（执行）。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python、java、Scala中任意类型的对象，甚至可以包含用户自定义的对象。甚至可以包含用户自定义法的对象。RDD具有数据流模型的的特点：自动容错。

2023-09-05 15:39:57 369

wan15225656187的博客