
大数据
文章平均质量分 94
大白兔黑又黑
这个作者很懒,什么都没留下…
展开
-
Pandas API on Spark使用详解
在上一篇文章中我们介绍了《》,本篇文章我们继续介绍PySpark系列的第二个重要内容——Pandas API on Spark。PySpark DataFrame虽然已经很大程度上方便了代码开发,并且支持pandas udf,但是Python开发者仍然需要学习相关的API,这对于习惯使用Pandas的用户而言仍然不够友好。原创 2023-05-20 16:48:13 · 1874 阅读 · 1 评论 -
PySpark DataFrame使用详解
作为一款非常成熟的大数据工具,Spark已在业界获得了非常广泛的应用。而Python+Spark的结合产物PySpark更是集合了Python的易用和Spark的分布式计算能力,产生了1+1 > 2的效果。本系列文章将从《PySpark DataFrame》、《Pandas API on Spark》、《Spark on K8S》、《PySpark RDD》几个方面分别介绍PySpark的功能。原创 2023-05-11 18:22:47 · 2627 阅读 · 1 评论 -
ClickHouse Projection
ClickHouse Projection的原理和使用原创 2022-08-11 17:13:38 · 1820 阅读 · 0 评论 -
ClickHouse 视图(View)
ClickHouse支持创建普通视图(normal view)、物化视图(materialized view)、实时视图(live view)和窗口视图(window view)。原创 2022-08-11 13:46:57 · 8448 阅读 · 1 评论 -
ClickHouse数据类型
ClickHouse支持非常丰富的数据类型,如果从数据类型和函数的角度去考虑,甚至可以认为ClickHouse SQL是一门编程语言。原创 2022-07-31 22:00:15 · 2498 阅读 · 0 评论 -
ClickHouse常用函数速查大全
ClickHouse主要有两种函数:常规函数和聚合函数,除此之外,还有 ‘arrayJoin’ 等特殊函数,我们将分别介绍。需要注意的是ClickHouse具有强类型限制,换句话说,它不进行类型之间的隐式转换,每个函数都适用于特定的类型参数。这意味着有时需要使用类型转换函数。如果下面函数执行报错,则可能是clickhouse版本不支持。toTypeName(0)1. 算术函数对于所有算术函数,计算结果类型向上兼容。SELECT toTypeName(0), toTypeName(0 + 0), t原创 2022-07-31 13:27:43 · 9514 阅读 · 0 评论 -
ClickHouse增加删除更新操作
前面我们已经介绍过 ClickHouse 是列式存储数据库,并且是按照有序存储、且按照索引粒度建立稀疏索引,所以 ClickHouse 是不擅长做 update/delete 操作的,对于需要经常变化的数据,也不建议使用clickhouse。但是并不是说clickhouse就不能更新数据,clickhouse提供了一种基于alter语句的“突变”(mutations)操作来实现更新/删除操作。在使用mutations操作之前需要注意:mutations操作需要重置分区,是一种“很重”的操作,更适用于操作原创 2022-05-22 11:49:05 · 6520 阅读 · 0 评论 -
ClickHouse查询语句详解
ClickHouse查询语句兼容大部分SQL语法,并且进行了更加丰富的扩展,查询语句模板如下:[WITH expr_list|(subquery)]SELECT [DISTINCT [ON (column1, column2, ...)]] expr_list[FROM [db.]table | (subquery) | table_function] [FINAL][SAMPLE sample_coeff][ARRAY JOIN ...][GLOBAL] [ANY|ALL|ASOF] [IN原创 2022-04-20 20:08:09 · 17688 阅读 · 0 评论 -
ClickHouse MergeTree副本表和分布式表(切片)
在前面的文章中我们详细介绍了 MergeTree 表引擎、MergeTree 家族其他表引擎、MergeTree 二级索引等内容,clickhouse数据库都是在单节点上运行的,作为OLAP处理的大数据利器,clickhouse 显然少了两个功能——数据高可用(HA)和横向扩展。HA的目的是为了如果有一个数据副本丢失或者损坏不至于完全丢失数据,至于横向扩展自然是为了提高数据存储能力了。1. MergeTree副本表ClickHouse MergeTree 副本表的数据一致性同步是通过Zookeeper实原创 2022-04-13 17:48:03 · 3064 阅读 · 0 评论 -
ClickHouse MergeTree家族特殊表引擎
在前面的文章中,我们详细介绍了ClickHouse MergeTree表引擎的使用场景、原理、数据存储结构、建表语句以及索引优化。详见《ClickHouse MergeTree表引擎和建表语句》、《ClickHouse MergeTree二级索引/跳数索引》。MergeTree引擎表是使用最为广泛的表,除了MergeTree引擎表以外,MergeTree家族还有一些特殊的表引擎,在一些特殊场景中能够表现出更好地性能。例如,统计电商平台每天的销售额等。1. AggregatingMergeTree作为M原创 2022-04-05 21:45:17 · 3411 阅读 · 0 评论 -
ClickHouse MergeTree二级索引/跳数索引
在前一篇文章《ClickHouse MergeTree表引擎和建表语句》中,我们详细介绍了MergeTree的建表语句、存储结构和索引原理,本篇我们继续介绍MergeTree的另一个特性——二级索引,二级索引适用于所有MergeTree家族表引擎。在某些版本中,默认可能没有开启二级索引,可以通过下面的设置开启二级索引。SET allow_experimental_data_skipping_indices=1;在继续介绍之前我们先来回顾一下MergeTree的查询过程:当我们通过主键进行查询时原创 2022-04-03 16:38:24 · 9390 阅读 · 1 评论 -
ClickHouse MergeTree表引擎和建表语句
clickhouse使用场景ClickHouse是由俄罗斯Yandex公司开发的、面向列的数据库管理系统(DBMS),主要面向OLAP场景,用于在线分析处理查询,可以使用SQL查询实时生成数据分析结果。列式存储的好处就是当我们对列进行聚合等操作时,效率会大大优于行式存储,而且由于每一列的类型都是相同的,所以对于数据存储更容易进行压缩,可以对不同类型的列选择更合适的压缩算法,节约资源。clickhouse的设计也处处体现了俄罗斯的暴力美学,它不仅仅是一个数据库,还是一个数据库管理系统,后面我们在介绍基于S原创 2022-03-28 16:57:14 · 7769 阅读 · 0 评论 -
Hadoop笔记(5)HA和联邦机制
https://www.cnblogs.com/qcloud1001/p/7693476.html原创 2021-04-25 22:15:41 · 1529 阅读 · 0 评论 -
Hadoop笔记(4)yarn架构介绍
7. yarn资源管理者resourcemanagernodemanagerHadoop 中包含了两个独立的主从架构(Master / Slave)的集群:HDFS 和 YARN。HDFS的主节点的守护进程是:NameNode,从节点的守护进程是 DataNode。YARN的主节点的守护进程是:ResourceManager,从节点的守护进程是 NodeManagernamenode存储所有数据的元数据信息,那么必然要感知所有datanode的状态,一旦datanode上线或者下线,就.原创 2021-04-09 17:24:42 · 670 阅读 · 1 评论 -
Hadoop笔记(3)mapreduce原理和实践
6. mapreduce内部封装了mapper类和reduce类7. yarn资源管理者resourcemanagernodemanagerHadoop 中包含了两个独立的主从架构(Master / Slave)的集群:HDFS 和 YARN。HDFS的主节点的守护进程是:NameNode,从节点的守护进程是 DataNode。YARN的主节点的守护进程是:ResourceManager,从节点的守护进程是 NodeManagernamenode存储所有数据的元数据信息,那么必.原创 2021-04-06 16:37:27 · 503 阅读 · 0 评论 -
Hadoop笔记(2)hdfs
在前一篇文章中,我们简略宏观的介绍了Hadoop的整体技术架构,并介绍了Hadoop的三个主要主件:负责存储的hdfs、负责计算的mapreduce、负责调度的yarn。从存储的角度划分,Hadoop集群分为两种:存储数据的datanode和维护元数据的namenode,当然还有secondarynamenode协助namenode一起维护元数据信息。hdfs不适合存储小文件,例如图片信息,大量身份证照片并不适合直接存储在hdfs上,维护较多的元数据信息HDFS文件系统会给客户端提供一个统一的抽象目原创 2021-03-25 18:56:02 · 361 阅读 · 1 评论 -
Hadoop笔记(1)Hadoop整体架构
筹谋大数据笔记久矣,然迟迟未能下笔,皆以无暇忙碌为由迟矣。余终悟之:明日复明日,明日成蹉跎。九层之台,起于累土。本系列文章也是以Apache Hadoop生态圈为主介绍大数据的相关知识,毕竟是主流应用,本文不会介绍详细的技术干货(从下一篇开始),主要介绍Hadoop的设计原因,在设计过程中要考虑的问题、注意的问题以及解决方法,正所谓知其然,更要知其所以然。本文的主要目的是为了先建立一个对Hadoop的整体认知,有助于后面更好的理解具体细节。话不多说,let's go。大数据(BigData)技术,很显然原创 2021-03-09 13:11:59 · 406 阅读 · 2 评论 -
Hive小技巧和调优
作为Hadoop生态圈中的重要组件,Hive在数据分析、处理方面扮演着异常重要的角色。另外,Hive作为大数据组件,处理的数据量往往很大,合适的优化技巧在运行效率方面往往可以起到非常好的效果。1、筛选重复记录这是在业务中经常遇到的一个问题,主要场景往往是,同一条记录被多次插入,或者同一个id对应多条记录,但是只需要其中一条就足矣。(1)对于重复记录,如果是数据去重,自然是可以使用dis...原创 2020-03-26 15:49:48 · 1212 阅读 · 0 评论 -
ZooKeeper原理和实践
一、什么是ZooKeeper ZooKeeper最早起源于雅虎研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型系统基本都需要依赖一个类似的系统来进行分布式协调,但是这些系统往往都存在分布式单点问题。所以,雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架,以便让开发人员将精力集中在处理业务逻辑上。 读完上面这段话,是不是还是不明白。但是可以...原创 2021-04-25 22:17:02 · 397 阅读 · 0 评论