王义凯_Rick-CSDN博客

原创关于ELK，你们想知道的都在这里了！(Elasticsearch7.7+Logstash7.7+Kibana7.7)

ELK是目前最流行的日志分析套件，基于lucene，提供全文检索功能，ES是目前最快的索引型数据库并提供RESTful接口，对开发人员很友好，横向扩展，Logstash提供多种插件，支持各类日志格式的定制和插件并实时将日志内容写入ES或其他目标源，Kibana提供对ES数据的展示功能，多用于日志检索，实时报表。本系列基于Elasticsearch7.7、Logstash7.7、Kibana7.7，ELK7.7版本，希望对大家有所帮助，请不要吝啬您手中的赞~谢谢！

2020-07-02 20:06:18 1889 5

原创可能是北半球最全面的Redis6.x系列文章

什么？你们公司还在用Redis4？别凹特了，Redis6了解一下！就在前两天(2020-06-30)，Redis之父Antirez宣布辞去作为Redis的维护者的职位，他表示自己是为了表达自己而编写代码，而现在却因维护Redis项目而筋疲力尽，缺少了自我表达的机会。Redis6.0是他带给我们的最新的版本，该版本新增了很多社区里一直在呼吁的功能，比如ACL、客户端缓存、IO多线程、集群代理等等。

2020-07-02 19:50:59 5273

原创 impala&hive大数据平台数据血缘与数据地图(四)-impala血缘架构图及功能介绍

最近在内部做了个分享，顺便画了一下这次impala数据血缘的架构图：架构图：如果想了解如何实现请参照前面几篇文章：impala数据血缘与数据地图系列：1. 解析impala与hive的血缘日志2. 实时采集impala血缘日志推送到kafka3. 实时消费血缘记录写入neo4j并验证---------------------------------Impala血缘架构图-----------------------------------------------------

2020-05-16 14:13:20 4844

原创 SQL中通过QUALIFY语法过滤窗口函数简化代码

MaxCompute和hive都支持使用QUALIFY语法对窗口函数的数据进行过滤，该语法类似于HAVING对聚合和GROUP BY之后的结果的处理。这个语法在很多场景中都可以用到，可以用于简化代码，少写一个子查询，如统计排名，分组内部排序等。很明显可以看出，相比于直接使用row_number排序后通过子查询过滤数据来说，通过。QUALIFY语法后至少要跟一个窗口函数，并且允许使用窗口列的别名来过滤数据。该代码效果等同于：(区别仅是上面代码多一个rn列，下面代码没有rn列)

2023-10-08 18:47:52 1555

原创 Flink实时任务性能调优

通常我们在开发完Flink任务提交运行后，需要对任务的参数进行一些调整，通常需要调整的情况是任务消费速度跟不上数据写入速度，从而导致实时任务出现反压、内存GC频繁（FullGC）频繁、内存溢出导致TaskManager被Kill。今天讲一下Flink任务中常见的性能场景及解决思路。

2023-07-09 16:27:30 2367

原创惊呆！博主居然教粉丝爬虫爬取自己的文章

python 博客, csdn, 爬虫 , markdownimport requestsfrom lxml import etreeimport html2text as htimport timeimport urllib.requestheaders = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 S.

2023-04-09 23:27:45 388

原创 Hive/MaxCompute SQL性能优化(三)：数据倾斜优化实战

前面介绍了如何定位数据倾斜，本文介绍如果遇到各种数据倾斜的情况该怎样优化代码。

2023-01-10 23:57:30 2768 1

原创 Hive/MaxCompute SQL性能优化(二)：如何定位数据倾斜

前面的文章我们简单介绍了什么是数据倾斜，今天我们来讲一下如何定位是否出现了数据倾斜，以及是在什么阶段出现的数据倾斜。

2022-10-11 21:36:17 1540

原创 Hive/MaxCompute SQL性能优化(一)：什么是数据倾斜

数据倾斜是指在并行计算模式下（map-reduce框架，数据被切分为N个片段，分发到不同的计算节点上，单独计算），部分节点处理的数据量远大于其他节点，造成该节点计算压力过大，从而导致少数节点的运行时长远远超过其他节点的平均运行时长，进而影响整体任务产出时效，造成任务延迟，这个现象就是数据倾斜。...

2022-07-14 01:03:29 1011

原创 odps进阶之参数化视图

ODPS(MaxCompute) 里面也有一个阉割版的存储过程---参数化视图。我们知道视图是将固定的计算逻辑存储下来，通过调用视图简化代码。而参数化视图就是可以在视图代码里调用入参变量，从而达到更灵活的使用视图，一个通用逻辑供多种场景使用。

2022-04-16 23:38:39 5009 3

原创 odps列转行之trans_array/trans_cols

trans_array用于将一行数据转为多行的UDTF，将列中存储的以固定分隔符格式分隔的数组转为多行。命令格式trans_array (num_keys, separator, key1,key2,…,col1, col2,col3) as (key1,key2,…,col1, col2)参数说明● num_keys: bigint类型常量，必须>=0。在转为多行时作为转置key的列的个数。Key是指在将一行转为多行时，在多行中重复的列。● separator:s...

2022-01-23 22:44:54 8330 1

原创 odps优化之arg_max/arg_min

arg_max(col1, col2)效果：查询col1列的最大值，并返回该记录中col2的值。arg_min(col1, col2)效果：查询col1列的最小值，并返回该记录中col2的值。优势：1：一般我们要查询某个列排名第一的其他字段的值的时候，一般会用row_number进行排序，然后取rn等于1的记录，当类似操作很多且数据量大的时候，是很影响性能的。而使用arg_max(col1,col2)就可以轻松的得到这个结果。2：或者当我们想取某个字符串列中最长的记录的内容时，一般我们都是先取最

2021-10-24 22:46:01 1118

原创善用Grouping Sets 提升代码效率

使用Grouping Sets可按照多个不同的维度组合进行聚合，减少了繁琐的代码，提升整体计算的效率。比如，需要对国家，省份，城市各维度进行聚合时候，可能会这么写：select '国家' as gep_type,country as geo_name,count(*) as cnt from tbl group by countryunion all select '省份' as gep_type,province as geo_name,count(*) as cnt from tbl gr

2021-09-14 16:45:56 874

原创别再使用count distinct了

在数仓开发中经常会对数据去重后统计，而对于大数据量来说，count(distinct )操作明显非常的消耗资源且性能很慢。下面介绍我平时使用最多的一种you'hua

2021-06-13 21:27:49 5645 3

原创数据湖简介

数据湖是将公司所有数据，外部数据，不知道要不要用的数据放在一起，通过一定的数据治理，让数据可以被发现，被理解，以用于交叉查询或机器学习的研究。数据湖不麻烦，管理数据湖中的数据最麻烦，一不小心就会变成数据沼泽。没人知道里面有什么数据，从哪来的，是干嘛的。目前市面上流行的三大开源数据湖方案分别为：DeltaLake, Hudi, Iceberg 。

2021-03-14 22:49:48 989 5

原创 Hive行转列、列转行

hive 行转列，列转行

2020-12-29 13:18:56 793 1

原创数仓必会：Sqoop常用命令(全量/增量/全库同步)

增量，全量，全库将数据在关系型数据库MySQL,Oracle,Postgre以及Hive，HDFS之间进行数据同步操作，允许自动映射数据类型，还有很多其他参数如分隔符，文件格式，编码等参数请参考官方手册按需进行配置。

2020-11-30 20:06:59 4834

原创 scala中下划线的几种含义

1. 将方法转变为函数2. 表示集合里的每个元素3. 获取元组Tuple中的元素4. 模式匹配5. 队列匹配6. 通配符7. 变长参数8. 初始化变量

2020-10-24 21:11:00 1338

原创 CDC系列（三）、Debezium 监控MySQL操作日志实时同步到Kafka（对比canal，maxwell）

目录前言准备工作配置Connector注册启动Connector验证CDC尾巴CDC系列：CDC系列（一）、Canal 集群部署及使用（带WebUI）CDC系列（二）、Maxwell_v1.27.1 监控MySQL操作日志实时同步到Kafka前言前两篇我们介绍了CDC工具，以及利用Canal和Maxwell监控mysql操作日志并写入kafka，本篇我们来讲解另一个CDC工具：debezium。debezium不仅仅支持mysql的监控，目前最新版已支持mysql

2020-09-25 18:04:30 12156 14

原创 Kafka系列（七）、Kafka套件 Confluent Platform 单机/集群部署

Confluent 由kafka的核心成员成立，目前最新版Confluent为v5.5.1版本，对应的kafka版本为Apache Kafka_v2.5.0，在Confluent中不仅包含了kafka，还有下面几个组件，增强了kafka的功能也大大提升了kafka的易用性。KSQL：通过SQL查询topic内的数据；Confluent Connetors：支持配置HDFS，Cassandra，MySQL，Oracle，Postgre，MongoDB，Kudu等数据源的source和sink；Conf

2020-09-24 02:43:01 3747 3

原创 Kafka系列（六）、Kafka开发套件kafka lenses 安装及使用（带WebUI）

Lenses 是kafka的一个商用套件，本次我们使用docker安装他们给我们提供的开源版本，该开源版本包含超多组件，对于平时开发使用来说很友好，不需要去安装一堆开发组件，它自带了Apache Kafka, Kafka Connect, Zookeeper, Confluent Schema Registry,Confluent REST Proxy 以及几个lenses开源的管理ui界面kafka-topics-ui, schema-registry-ui, kafka-connect-ui，

2020-09-23 15:12:42 1882

原创 CDC系列（二）、Maxwell_v1.27.1 监控MySQL操作日志实时同步到Kafka

在上一篇我们介绍了CDC工具，以及Canal的集群安装和使用，本篇我们来讲解另一个CDC工具：Maxwell。和Canal一样，Maxwell也是将自己伪装成MySQL的slave节点，通过监控MySQL的binlog来将数据操作日志同步到kafka等消息队列中供异构数据源使用。本篇我们会介绍Maxwell的安装和使用。和Canal一样，一定要至少准备一个MySQL库用于Maxwell的管理库存放状态信息以及用来监控的MySQL库，监控到的binlog导出到kafka，因此也需要准备kafka

2020-09-22 23:20:02 2419

原创 CDC系列（一）、Canal 集群部署及使用（带WebUI）

CDC（Change Data Capture）是一种捕获数据修改的技术方案，常常应用于异构数据源之间的数据同步。通常有两种解决方案：批式定时根据查询条件采集变更数据、监控数据源的操作日志。对于第一种批式的方案好处是门槛低成本低但坏处是可能会造成数据丢失以及数据有延迟等等，第二种日志方案好处很明显，比如对数据源侵入性低，数据时效性更高，不会有数据丢失的风险等等。在目前的关系型数据库中如MySQL、Oracle、SQLServer、Postgre等都提供了用于同步的日志解决方案，如MySQL基于binlog在

2020-09-22 15:03:54 8021 6

原创 Kafka系列（五）、开启SASL安全认证以及配置ACL权限控制

本篇是kafka系列的第五篇，介绍kafka配置安全认证SASL以及ACL权限控制，并使用控制台和python访问开启了SASL认证的kafka集群。

2020-09-18 14:52:56 10490 1

原创 Kafka系列（四）、消费者策略、Rebalance机制、Offset存储机制

本篇是kafka系列的第四篇，介绍kafka消费者策略，分区分配策略，Rebalance重分配策略，以及offset存储机制

2020-09-17 16:16:33 3000

原创 Kafka系列（三）、生产者分区策略、ISR、ACK、幂等性、事务机制

本篇是kafka系列的第三篇，介绍kafka生产者的分区策略、ISR、ACK机制，故障处理，一致性语义，Exactly Once精准一次性语义等

2020-09-17 01:24:34 1802

原创 Kafka系列（二）、架构原理及存储机制

本篇是kafka系列的第二篇，介绍kafka的架构原理，工作流程以及存储机制，然后讲解了kafka为什么这么高性能高吞吐的原因及优化的点。

2020-09-16 21:12:11 2653 1

原创 Kafka系列（一）、2.6.0版本kafka集群搭建

本篇是kafka系列的正式第一篇，首先介绍搭建kafka集群。Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。

2020-09-15 13:24:15 2341 5

原创 Zookeeper系列（三）、zk集群安装部署

目录下载安装简单使用Zookeeper系列：Zookeeper系列（一）、基础概念Zookeeper系列（二）、核心原理zk的安装很简单，这里简单介绍一下。下载清华镜像下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/v3.5.8安装又拿出了我的三台渣机器：wyk01,wyk02,wyk031. wyk01：解压下载的zk安装包#解压tar -zxvf apache-zookee.

2020-09-15 12:31:28 1710

原创分布式存储系统Kudu（一）、核心原理

在前面的篇章中我们介绍了分布式文件系统HDFS 以及列式存储HBase，HDFS提供了可以横向扩展的存储引擎，适合离线分析场景，不适合于随机读写。HBase适合于随机读写，但由于Scan消耗性能，因此不适合于离线分析场景。因此既可以实现数据的快速插入与实时更新，又能实现对数据的快速分析的Kudu出现了。Apache Kudu 是由Cloudera 开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS 和 HBase 的功能的新组件，具备介于两者之间的新存储组件。Kud

2020-09-14 17:56:14 1386

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

rb_tree.html

redisbloom.so

foursquare-datasource-plugin-clouderamanager-v0.9.2-0-g9ac3d25.zip

使用Python监控本机资源情况写入InfluxDB并使用Grafana监控

Pyqt5开发的股票查询工具_by_python.zip

kafka-manager-web-1.0.0-SNAPSHOT.jar

kafka-eagle-v1.4.6.tar.gz

azkaban_3.52.0_编译版.rar

空空如也