Samooyou-CSDN博客

原创 spark3新特性之动态分区裁剪

Spark3.0为我们带来了许多令人期待的特性。Spark中的静态分区裁剪在介绍动态分区裁剪之前，有必要对Spark中的静态分区裁剪进行介绍。因此，在这种情况下，我们不能再应用静态分区裁剪，因为filter条件在join表的一侧，而对裁剪有用的表在Join的另一侧。Spark将这个查询转化为一种易于理解的形式，我们称它为查询的逻辑计划。物理计划阶段优化如果维度表很小，那么Spark很可能会以broadcasthashjoin的形式执行这个Join。Spark 3.0 为我们带来了许多令人期待的特性。

2023-07-12 10:19:13 456

原创 Spark问题排查方式

spark

2023-06-06 15:41:46 272

原创 Python-ldap的API使用

这个示例连接到一个 LDAP 服务器，使用管理员凭据进行身份验证，然后搜索具有特定电子邮件地址的用户。它检索用户的 uid，名字，姓氏和电子邮件，并将它们打印到控制台上。最后，它关闭了 LDAP 连接。你可以根据需要修改搜索过滤器，搜索基础和属性列表。

2023-04-14 10:55:40 696 1

原创 Python的常用内置函数+模块

python的join内置函数：Python中的join函数_python join_sunvally的博客-CSDN博客python的re正则模块：Python之re模块详解_python_脚本之家Python的sys解释器相关模块：python模块sys（常用功能） - 知乎

2023-04-03 17:11:31 124

原创配置IDEA自带Maven插件的镜像源

1、问题描述由于某些众所周知的原因，Maven从中央仓库下载依赖速度非常慢，甚至经常失败，几乎处于不可用状态。而Maven项目和这个构建工具又是Java开发者必不可少的开发利器。一般我们采取配置国内阿里云的镜像源，很快很巴适自己下载maven的一般在下载目录下找到conf文件夹，修改settings.xml文件即可。

2023-03-24 11:10:08 1506

原创 Python基础总结

Python的基础使用

2023-03-20 21:42:27 433

原创 Python常见问题

1、SyntacError:invalid character ' "'(U+201C)

2023-03-12 12:00:31 171

原创 MYSQL开发误区

1、现象：在线业务系统出现了三张表以上的关联查询建议：说明业务逻辑在表设计上的实现不合理，需要进行表结构调整，或进行列的冗余，或进行业务改造。2、现象：大表拆成多张小表之后，表之间通过ID关联，需要关联查询的时候，根据ID到表中再取出对应的值建议：可在子表适当冗余主表的字段，避免回表查询。3、误区：表数据一多了，就要拆分表正解：不能为了拆表而拆表，要与业务切合，我们的设计永远是以符合业务发展为第一出发点。讨论：是否可以归档，建立历史库？数据是否符合冷热分离？数据是否可以直接删除？

2023-03-09 15:05:25 355

原创元数据管理总结

元数据介绍

2023-03-06 16:16:48 285

原创 Hbase建表、删表慢的实例优化

hbase.master.procedure.threads参数配置

2023-03-02 14:38:52 804 1

原创 HBase JMX 指标学习

HBase JMX 指标学习

2023-03-01 10:13:27 1799

原创 HBase核心参数配置

hbase参数配置

2023-03-01 10:12:55 1821

原创 HBase基础知识

hbase基础知识

2023-02-28 17:41:44 855

原创 Compact 调优实例

compaction 实例

2023-02-28 17:23:28 383

原创 Hbase -- Compact工具梳理

Compact工具梳理

2023-02-28 16:57:16 498

原创 Hbase限流 -- HBase Quota调研

hbase的限流--quota

2023-02-28 15:55:07 755

原创京东HBase异地多活调研

容灾

2023-02-28 14:47:51 467

原创 Hbase预分区参考

hbase预分区

2023-02-28 14:34:14 417

原创 Hbase资源隔离操作指南

hbase资源隔离

2023-02-28 11:28:05 345

原创 OOM的俩种情况---主动kill/被动kill

因为内存资源配置原因，导致hbase集群压测时出现崩溃异常，并且看不到有效日志。本文总结了OOM出现后的排查手段，以及避免方法。

2023-02-28 10:56:56 378

原创阿里大数据之路总结

阿里大数据之路

2023-02-27 09:49:57 613

原创 screen常用命令总(支持关闭xshell窗口)

screen -S dcx --> 新建一个叫dcx的session，并登录dcx session。screen -d dcx --> dcx session离线(离开dcx session)screen -r dcx --> dcx session恢复(进入dcx session)screen -d -r dcx --> 结束当前session并回到dcx这个session。

2022-10-20 10:10:33 850

原创 Spark内核

Spark中未进行序列化的对象，由于其占用的内存是通过周期性地采样近似估算而得，即并不是每次新增的数据项都会计算一次占用的内存大小，所以可能导致Spark标记为释放的内存但是JVM并没有释放导致实际可用的内存小于Spark记录的可用内存，甚至OOM。堆外内存直接向操作系统申请，所以可以实现精准的空间计算。

2022-08-22 16:00:18 938

原创 EC码介绍

EC(Erasure code),是一种纠删码，相比多副本复制而言，纠删码能够以更小的数据冗余度获得更高数据可靠性，但编码方式较复杂，需要大量计算。纠删码只能容忍数据丢失，无法容忍数据篡改，纠删码正是得名于此。EC码中分为数据块和校验块。假设我们的输入数据以D1，D2，...D5的向量来表示，矩阵B为编码矩阵，进行编码后得到D，C组成的矩阵，其中D为数据块，C为校验块。我们的数据写入都需要经过编码后才能进行存储。与传统文件被划分为数据块进行存储相比，EC编码的文件以块组为单位对文件进行划分，一个块组中

2022-07-14 15:28:54 2168

原创 Hadoop 2.x和Hadoop 3.x比较

Hadoop 2.x - Apache 2.0，开源Hadoop 3.x - Apache 2.0，开源Hadoop 2.x - java的最低支持版本是java 7Hadoop 3.x - java的最低支持版本是java 8Hadoop 2.x - 可以通过复制（浪费空间）来处理容错。Hadoop 3.x - 可以通过Erasure编码处理容错。Hadoop 2.x - 对于数据平衡使用HDFS平衡器。Hadoop 3.x - 对于数据平衡使用Intra-data节点平衡器，该平衡器通过HDFS磁盘平衡

2022-07-04 16:39:51 615

原创 HDFS-FSCK命令输出

在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行，普通用户无权限。hdfs fsck /data/test/cdh9 -list-corruptfileblockshdfs fsck /data/test/cdh9 -movehdfs fsck /data/test/cdh9 -deletehdfs fsck /data/test/cdh9 -openforwrite例：hdfs fsck /

2022-07-04 11:19:50 574

原创 Linux专栏 -- tcp和tcpkill工具使用

一、TCP报文简介TCP报文格式 TCP/IP协议的详细信息参看《TCP/IP协议详解》三卷本。下面是TCP报文格式图：图1 TCP报文格式上图中有几个字段需要重点介绍下：（1）序号：Seq序号，占32位，用来标识从TCP源端向目的端发送的字节流，发起方发送数据时对此进行标记。（2）确认序号：Ack序号，占32位，只有ACK标志位为1时，确认序号字段才有效，Ack=Seq+1。（3）标志位：共6个，即URG、ACK、PSH、RST、SYN、FIN等，具体含义如下：（A）UR

2022-07-01 14:34:54 896

原创分组函数之rollup、cube函数、grouping sets函数

rollup 通常和group by语句一起使用，是根据维度在分组的结果集中进行聚合操作（通常为汇总，这取决于SELECT后的聚合函数）。最常用的场景是：为每个分组返回一个小计，同时为所有分组返回总计。1、不带rollup的goup by ：Group by A ,B产生的分组种数：1种；返回结果集：也就是这一种分组的结果集。2、带rollup但group by与rollup之间没有任何内容：1）Group by rollup(A ,B) 产生的分组种数：3种；返回结果集：为以上三种分组统计结果集的并集且

2022-06-27 10:43:03 3230

原创 Hive与MapReduce小文件合并问题

参数设置：因为设置上面四个参数，看上去规定了map结束，MR结束合并文件，如果文件平均小于smallfiles.avgsize启动一个新的MRj进行文件的二次合并。如果启动mr合并文件，没有问题。但是忽略了一个问题，你重新启动一个mr合并文件，这个mr是不是需要进行文件split，你这个参数搞小了，那就会产生很多task，很多map，比如很多小文件就是一个map，最终还是产生很多小文件（因为合并小文件的mr只有map）。所以必须要配合split参数才有用。参考：大多数开发人员都弄错的Hive与MapRedu

2022-06-09 10:16:02 357

五分钟学大数据-最强最全面数仓建设规范指南(强烈推荐).pdf

空空如也