自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(81)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark3新特性之动态分区裁剪

Spark3.0为我们带来了许多令人期待的特性。Spark中的静态分区裁剪在介绍动态分区裁剪之前,有必要对Spark中的静态分区裁剪进行介绍。因此,在这种情况下,我们不能再应用静态分区裁剪,因为filter条件在join表的一侧,而对裁剪有用的表在Join的另一侧。Spark将这个查询转化为一种易于理解的形式,我们称它为查询的逻辑计划。物理计划阶段优化如果维度表很小,那么Spark很可能会以broadcasthashjoin的形式执行这个Join。Spark 3.0 为我们带来了许多令人期待的特性。

2023-07-12 10:19:13 456

原创 Spark问题排查方式

spark

2023-06-06 15:41:46 272

原创 Python-ldap的API使用

这个示例连接到一个 LDAP 服务器,使用管理员凭据进行身份验证,然后搜索具有特定电子邮件地址的用户。它检索用户的 uid,名字,姓氏和电子邮件,并将它们打印到控制台上。最后,它关闭了 LDAP 连接。你可以根据需要修改搜索过滤器,搜索基础和属性列表。

2023-04-14 10:55:40 696 1

原创 Python的常用内置函数+模块

python的join内置函数:Python中的join函数_python join_sunvally的博客-CSDN博客python的re正则模块:Python之re模块详解_python_脚本之家Python的sys解释器相关模块:python模块sys(常用功能) - 知乎

2023-04-03 17:11:31 124

原创 配置IDEA自带Maven插件的镜像源

1、问题描述由于某些众所周知的原因,Maven从中央仓库下载依赖速度非常慢,甚至经常失败,几乎处于不可用状态。而Maven项目和这个构建工具又是Java开发者必不可少的开发利器。一般我们采取配置国内阿里云的镜像源,很快很巴适自己下载maven的一般在下载目录下找到conf文件夹,修改settings.xml文件即可。

2023-03-24 11:10:08 1506

原创 Python基础总结

Python的基础使用

2023-03-20 21:42:27 433

原创 Python常见问题

1、SyntacError:invalid character ' "'(U+201C)

2023-03-12 12:00:31 171

原创 MYSQL开发误区

1、现象:在线业务系统出现了三张表以上的关联查询建议:说明业务逻辑在表设计上的实现不合理,需要进行表结构调整,或进行列的冗余,或进行业务改造。2、现象:大表拆成多张小表之后,表之间通过ID关联,需要关联查询的时候,根据ID到表中再取出对应的值建议:可在子表适当冗余主表的字段,避免回表查询。3、误区:表数据一多了,就要拆分表正解:不能为了拆表而拆表,要与业务切合,我们的设计永远是以符合业务发展为第一出发点。讨论:是否可以归档,建立历史库?数据是否符合冷热分离?数据是否可以直接删除?

2023-03-09 15:05:25 355

原创 元数据管理总结

元数据介绍

2023-03-06 16:16:48 285

原创 Hbase建表、删表慢的实例优化

hbase.master.procedure.threads参数配置

2023-03-02 14:38:52 804 1

原创 HBase JMX 指标学习

HBase JMX 指标学习

2023-03-01 10:13:27 1799

原创 HBase核心参数配置

hbase参数配置

2023-03-01 10:12:55 1821

原创 HBase基础知识

hbase基础知识

2023-02-28 17:41:44 855

原创 Compact 调优实例

compaction 实例

2023-02-28 17:23:28 383

原创 Hbase -- Compact工具梳理

Compact工具梳理

2023-02-28 16:57:16 498

原创 Hbase限流 -- HBase Quota调研

hbase的限流--quota

2023-02-28 15:55:07 755

原创 京东HBase异地多活调研

容灾

2023-02-28 14:47:51 467

原创 Hbase预分区参考

hbase预分区

2023-02-28 14:34:14 417

原创 Hbase资源隔离操作指南

hbase资源隔离

2023-02-28 11:28:05 345

原创 OOM的俩种情况---主动kill/被动kill

因为内存资源配置原因,导致hbase集群压测时出现崩溃异常,并且看不到有效日志。本文总结了OOM出现后的排查手段,以及避免方法。

2023-02-28 10:56:56 378

原创 阿里大数据之路总结

阿里大数据之路

2023-02-27 09:49:57 613

原创 screen常用命令总(支持关闭xshell窗口)

screen -S dcx --> 新建一个叫dcx的session,并登录dcx session。screen -d dcx --> dcx session离线(离开dcx session)screen -r dcx --> dcx session恢复(进入dcx session)screen -d -r dcx --> 结束当前session并回到dcx这个session。

2022-10-20 10:10:33 850

原创 Spark内核

Spark中未进行序列化的对象,由于其占用的内存是通过周期性地采样近似估算而得,即并不是每次新增的数据项都会计算一次占用的内存大小,所以可能导致Spark标记为释放的内存但是JVM并没有释放导致实际可用的内存小于Spark记录的可用内存,甚至OOM。堆外内存直接向操作系统申请,所以可以实现精准的空间计算。

2022-08-22 16:00:18 938

原创 EC码介绍

EC(Erasure code),是一种纠删码,相比多副本复制而言, 纠删码能够以更小的数据冗余度获得更高数据可靠性, 但编码方式较复杂,需要大量计算 。纠删码只能容忍数据丢失,无法容忍数据篡改,纠删码正是得名于此。EC码中分为数据块和校验块。假设我们的输入数据以D1,D2,...D5的向量来表示,矩阵B为编码矩阵,进行编码后得到D,C组成的矩阵,其中D为数据块,C为校验块。我们的数据写入都需要经过编码后才能进行存储。与传统文件被划分为数据块进行存储相比,EC编码的文件以块组为单位对文件进行划分,一个块组中

2022-07-14 15:28:54 2168

原创 Hadoop 2.x和Hadoop 3.x比较

Hadoop 2.x - Apache 2.0,开源Hadoop 3.x - Apache 2.0,开源Hadoop 2.x - java的最低支持版本是java 7Hadoop 3.x - java的最低支持版本是java 8Hadoop 2.x - 可以通过复制(浪费空间)来处理容错。Hadoop 3.x - 可以通过Erasure编码处理容错。Hadoop 2.x - 对于数据平衡使用HDFS平衡器。Hadoop 3.x - 对于数据平衡使用Intra-data节点平衡器,该平衡器通过HDFS磁盘平衡

2022-07-04 16:39:51 615

原创 HDFS-FSCK命令输出

在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。hdfs fsck /data/test/cdh9 -list-corruptfileblockshdfs fsck /data/test/cdh9 -movehdfs fsck /data/test/cdh9 -deletehdfs fsck /data/test/cdh9 -openforwrite例:hdfs fsck /

2022-07-04 11:19:50 574

原创 Linux专栏 -- tcp和tcpkill工具使用

一、TCP报文简介TCP报文格式 TCP/IP协议的详细信息参看《TCP/IP协议详解》三卷本。下面是TCP报文格式图:图1 TCP报文格式 上图中有几个字段需要重点介绍下: (1)序号:Seq序号,占32位,用来标识从TCP源端向目的端发送的字节流,发起方发送数据时对此进行标记。 (2)确认序号:Ack序号,占32位,只有ACK标志位为1时,确认序号字段才有效,Ack=Seq+1。 (3)标志位:共6个,即URG、ACK、PSH、RST、SYN、FIN等,具体含义如下: (A)UR

2022-07-01 14:34:54 896

原创 分组函数之rollup、cube函数、grouping sets函数

rollup 通常和group by语句一起使用,是根据维度在分组的结果集中进行聚合操作(通常为汇总,这取决于SELECT后的聚合函数)。最常用的场景是:为每个分组返回一个小计,同时为所有分组返回总计。1、不带rollup的goup by :Group by A ,B产生的分组种数:1种;返回结果集:也就是这一种分组的结果集。2、带rollup但group by与rollup之间没有任何内容:1)Group by rollup(A ,B) 产生的分组种数:3种;返回结果集:为以上三种分组统计结果集的并集且

2022-06-27 10:43:03 3230

原创 Hive与MapReduce小文件合并问题

参数设置:因为设置上面四个参数,看上去规定了map结束,MR结束合并文件,如果文件平均小于smallfiles.avgsize启动一个新的MRj进行文件的二次合并。如果启动mr合并文件,没有问题。但是忽略了一个问题,你重新启动一个mr合并文件,这个mr是不是需要进行文件split,你这个参数搞小了,那就会产生很多task,很多map,比如很多小文件就是一个map,最终还是产生很多小文件(因为合并小文件的mr只有map)。所以必须要配合split参数才有用。参考:大多数开发人员都弄错的Hive与MapRedu

2022-06-09 10:16:02 357

原创 Linux -- 软链接使用

1.创建软链接ln -s [新的源文件或目录] [软链接文件]例:ln -s /data/html/ /var/www/html需要html目录不存在2.修改软链接就是重新软链即可ln -sf /data/html/ /var/www/html3.删除软链接rm –rf ./软链接名称 --仅仅删除软链接,源文件没有被删除rm -rf ./软链接名称/ --把软链接以及软链接指向下的内容删除...

2022-06-09 10:12:24 861 1

原创 大数据组件日志查看

yarn applicationyarn application -listyarn application -kill application_xxx_xxxyarn application -appStates finished -listyarn application -appStates ALL -list

2022-06-02 08:59:57 199

原创 Flink--自定义函数

本文为您介绍如何为实时计算Flink版自定义标量函数(UDF)、自定义聚合函数(UDAF)、自定义表值函数(UDTF)编写业务代码及上线。自定义标量函数(UDF)定义自定义标量函数(UDF)将0个、1个或多个标量值映射到一个新的标量值。为了定义标量函数,必须在org.apache.flink.table.functions中扩展基类Scalar Function,并实现(一个或多个)求值(evaluation,eval)方法。标量函数的行为由求值方法决定,求值方法必须公开声明并命名为eval

2022-05-31 19:26:21 558

原创 Flink -- 内置函数(ALL)

目录比较函数1.比较函数比较函数的函数名和功能描述如下: 函数名 功能描述 函数名 功能描述 value1 = value2 比较 value1 和 value2 是否相等,如果相等则返回 TRUE,如果不相等则返回 FALSE。 NULL 与任何值比较的结果均为 NULL,在 WHERE 条件中会被当作 FALSE。因此请使用 IS NULL 而不是 = NULL 来与 NULL

2022-05-31 18:17:35 3592

原创 Flink <-->HBase的使用介绍+with参数

介绍Hbase Connector 提供了对 Hbase 集群的读写支持。Oceanus 已经提供了内置的flink-connector-hbaseConnector 组件。使用范围仅适用于 hbase-1.4.x。示例用作数据源(Source) CREATETABLEdim_hbase ( rowkey STRING, cf ROW < school_name STRING >, PRIMARYKEY(rowkey...

2022-05-31 17:53:21 1750

原创 Flink <-->JDBC的使用介绍+with参数

介绍JDBC Connector 提供了对 MySQL、PostgreSQL、Oracle 等常见的数据库读写支持。目前 Oceanus 提供的flink-connector-jdbcConnector 组件已经内置了 MySQL 和 PostgreSQL 的驱动程序。若需要连接 Oracle 等其他的数据库,可通过附加自定义程序包的方式,上传相应的 JDBC Driver 的 JAR 包。使用范围JDBC 支持用作数据源表(Source),用于按固定列扫描表和用于 JOIN 的右表(维..

2022-05-31 17:50:56 3983

原创 Flink <-->Redis的使用介绍+with参数

介绍Redis Connector 提供了对 Redis 写入支持。使用范围可以作为 Tuple、Upsert 数据流的目的表。示例set 命令(字符串键) -- 第1列为 key,第2列为 value。Redis 命令为 set key value CREATETABLE`DataOutput` ( `key` STRING, `value` STRING )WITH( 'connector'='redis',...

2022-05-31 17:36:51 602 1

原创 Flink <-->Kafka的使用介绍+with参数

Kafka数据管道是流计算系统中最常用的数据源(Source)和数据目的(Sink)。用户可以把流数据导入到Kafka的某个 Topic 中,通过 Flink 算子进行处理后,输出到相同或不同Kafka示例的另一个 Topic。Kafka支持同一个 Topic 多分区读写,数据可以从多个分区读入,也可以写入到多个分区,以提供更高的吞吐量,减少数据倾斜和热点。使用范围Kafka支持用作数据源表(Source),也可以作为 Tuple 数据流的目的表(Sink),暂不支持 Upsert...

2022-05-31 17:20:21 1569

原创 Mysql--索引原理+如何使用

一 、介绍为何要有索引?  一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。什么是索引?  索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易

2022-05-27 16:23:22 55

原创 Hive--实现随机抽数

1.背景在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:2.随机方法1.数据块抽样(tablesample()函数)a.tablesample(n percent) 根据hive表数据的大小按比例抽取数据,并保存到新的hive表中。如:抽取原hive表

2022-05-27 16:09:27 4544

原创 Hive--临时表的三种方式

一、临时数据方案1、with as1.1 使用demo witht1as( select imei ,src_pkg ,src_type ,app_version_name frombi_quickgame.dw_qgcrpk_boot_di whereday='${etl_date}' groupby ...

2022-05-27 16:08:11 9611

五分钟学大数据-最强最全面数仓建设规范指南(强烈推荐).pdf

五分钟学大数据-最强最全面数仓建设规范指南(强烈推荐).pdf

2022-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除