自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王义凯 的博客

大数据,数据中台,数据治理,机器学习,hadoop,flink,spark

  • 博客(165)
  • 资源 (8)
  • 收藏
  • 关注

原创 关于ELK,你们想知道的都在这里了!(Elasticsearch7.7+Logstash7.7+Kibana7.7)

ELK是目前最流行的日志分析套件,基于lucene,提供全文检索功能,ES是目前最快的索引型数据库并提供RESTful接口,对开发人员很友好,横向扩展,Logstash提供多种插件,支持各类日志格式的定制和插件并实时将日志内容写入ES或其他目标源,Kibana提供对ES数据的展示功能,多用于日志检索,实时报表。本系列基于Elasticsearch7.7、Logstash7.7、Kibana7.7,ELK7.7版本,希望对大家有所帮助,请不要吝啬您手中的赞~谢谢!

2020-07-02 20:06:18 1889 5

原创 可能是北半球最全面的Redis6.x系列文章

什么?你们公司还在用Redis4? 别凹特了,Redis6了解一下!就在前两天(2020-06-30),Redis之父Antirez宣布辞去作为Redis的维护者的职位,他表示自己是为了表达自己而编写代码,而现在却因维护Redis项目而筋疲力尽,缺少了自我表达的机会。Redis6.0是他带给我们的最新的版本,该版本新增了很多社区里一直在呼吁的功能,比如ACL、客户端缓存、IO多线程、集群代理等等。

2020-07-02 19:50:59 5273

原创 impala&hive大数据平台数据血缘与数据地图(四)-impala血缘架构图及功能介绍

最近在内部做了个分享,顺便画了一下这次impala数据血缘的架构图:架构图:如果想了解如何实现请参照前面几篇文章:impala数据血缘与数据地图系列:1. 解析impala与hive的血缘日志2. 实时采集impala血缘日志推送到kafka3. 实时消费血缘记录写入neo4j并验证---------------------------------Impala血缘 架构图-----------------------------------------------------

2020-05-16 14:13:20 4844

原创 SQL中通过QUALIFY语法过滤窗口函数简化代码

MaxCompute和hive都支持使用QUALIFY语法对窗口函数的数据进行过滤,该语法类似于HAVING对聚合和GROUP BY之后的结果的处理。这个语法在很多场景中都可以用到,可以用于简化代码,少写一个子查询,如统计排名,分组内部排序等。很明显可以看出,相比于直接使用row_number排序后通过子查询过滤数据来说,通过。QUALIFY语法后至少要跟一个窗口函数,并且允许使用窗口列的别名来过滤数据。该代码效果等同于:(区别仅是上面代码多一个rn列,下面代码没有rn列)

2023-10-08 18:47:52 1555

原创 Flink实时任务性能调优

通常我们在开发完Flink任务提交运行后,需要对任务的参数进行一些调整,通常需要调整的情况是任务消费速度跟不上数据写入速度,从而导致实时任务出现反压、内存GC频繁(FullGC)频繁、内存溢出导致TaskManager被Kill。今天讲一下Flink任务中常见的性能场景及解决思路。

2023-07-09 16:27:30 2367

原创 惊呆!博主居然教粉丝爬虫爬取自己的文章

python 博客, csdn, 爬虫 , markdownimport requestsfrom lxml import etreeimport html2text as htimport timeimport urllib.requestheaders = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 S.

2023-04-09 23:27:45 388

原创 Hive/MaxCompute SQL性能优化(三):数据倾斜优化实战

前面介绍了如何定位数据倾斜,本文介绍如果遇到各种数据倾斜的情况该怎样优化代码。

2023-01-10 23:57:30 2768 1

原创 Hive/MaxCompute SQL性能优化(二):如何定位数据倾斜

前面的文章我们简单介绍了什么是数据倾斜,今天我们来讲一下如何定位是否出现了数据倾斜,以及是在什么阶段出现的数据倾斜。

2022-10-11 21:36:17 1540

原创 Hive/MaxCompute SQL性能优化(一):什么是数据倾斜

数据倾斜是指在并行计算模式下(map-reduce框架,数据被切分为N个片段,分发到不同的计算节点上,单独计算),部分节点处理的数据量远大于其他节点,造成该节点计算压力过大,从而导致少数节点的运行时长远远超过其他节点的平均运行时长,进而影响整体任务产出时效,造成任务延迟,这个现象就是数据倾斜。...

2022-07-14 01:03:29 1011

原创 odps进阶之参数化视图

ODPS(MaxCompute) 里面也有一个阉割版的存储过程---参数化视图。我们知道视图是将固定的计算逻辑存储下来,通过调用视图简化代码。而参数化视图就是可以在视图代码里调用入参变量,从而达到更灵活的使用视图,一个通用逻辑供多种场景使用。

2022-04-16 23:38:39 5009 3

原创 odps列转行之trans_array/trans_cols

trans_array用于将一行数据转为多行的UDTF,将列中存储的以固定分隔符格式分隔的数组转为多行。命令格式trans_array (num_keys, separator, key1,key2,…,col1, col2,col3) as (key1,key2,…,col1, col2)参数说明● num_keys: bigint类型常量,必须>=0。在转为多行时作为转置key的列的个数。Key是指在将一行转为多行时,在多行中重复的列。● separator:s...

2022-01-23 22:44:54 8330 1

原创 odps优化之arg_max/arg_min

arg_max(col1, col2)效果:查询col1列的最大值,并返回该记录中col2的值。arg_min(col1, col2)效果:查询col1列的最小值,并返回该记录中col2的值。优势:1:一般我们要查询某个列排名第一的其他字段的值的时候,一般会用row_number进行排序,然后取rn等于1的记录,当类似操作很多且数据量大的时候,是很影响性能的。而使用arg_max(col1,col2)就可以轻松的得到这个结果。2:或者当我们想取某个字符串列中最长的记录的内容时,一般我们都是先取最

2021-10-24 22:46:01 1118

原创 善用Grouping Sets 提升代码效率

使用Grouping Sets可按照多个不同的维度组合进行聚合,减少了繁琐的代码,提升整体计算的效率。比如,需要对国家,省份,城市各维度进行聚合时候,可能会这么写:select '国家' as gep_type,country as geo_name,count(*) as cnt from tbl group by countryunion all select '省份' as gep_type,province as geo_name,count(*) as cnt from tbl gr

2021-09-14 16:45:56 874

原创 别再使用count distinct了

在数仓开发中经常会对数据去重后统计,而对于大数据量来说,count(distinct )操作明显非常的消耗资源且性能很慢。下面介绍我平时使用最多的一种you'hua

2021-06-13 21:27:49 5645 3

原创 数据湖简介

数据湖是将公司所有数据,外部数据,不知道要不要用的数据放在一起,通过一定的数据治理,让数据可以被发现,被理解,以用于交叉查询或机器学习的研究。数据湖不麻烦,管理数据湖中的数据最麻烦,一不小心就会变成数据沼泽。没人知道里面有什么数据,从哪来的,是干嘛的。目前市面上流行的三大开源数据湖方案分别为:DeltaLake, Hudi, Iceberg 。

2021-03-14 22:49:48 989 5

原创 Hive行转列、列转行

hive 行转列,列转行

2020-12-29 13:18:56 793 1

原创 数仓必会:Sqoop常用命令(全量/增量/全库同步)

增量,全量,全库将数据在关系型数据库MySQL,Oracle,Postgre以及Hive,HDFS之间进行数据同步操作,允许自动映射数据类型,还有很多其他参数如分隔符,文件格式,编码等参数请参考官方手册按需进行配置。

2020-11-30 20:06:59 4834

原创 scala中下划线的几种含义

1. 将方法转变为函数2. 表示集合里的每个元素3. 获取元组Tuple中的元素4. 模式匹配5. 队列匹配6. 通配符7. 变长参数8. 初始化变量

2020-10-24 21:11:00 1338

原创 CDC系列(三)、Debezium 监控MySQL操作日志实时同步到Kafka(对比canal,maxwell)

目录前言准备工作配置Connector注册启动Connector验证CDC尾巴CDC系列:CDC系列(一)、Canal 集群部署及使用(带WebUI)CDC系列(二)、Maxwell_v1.27.1 监控MySQL操作日志实时同步到Kafka前言前两篇我们介绍了CDC工具,以及利用Canal和Maxwell监控mysql操作日志并写入kafka,本篇我们来讲解另一个CDC工具:debezium。debezium不仅仅支持mysql的监控,目前最新版已支持mysql

2020-09-25 18:04:30 12156 14

原创 Kafka系列(七)、Kafka套件 Confluent Platform 单机/集群部署

Confluent 由kafka的核心成员成立,目前最新版Confluent为v5.5.1版本,对应的kafka版本为Apache Kafka_v2.5.0,在Confluent中不仅包含了kafka,还有下面几个组件,增强了kafka的功能也大大提升了kafka的易用性。KSQL:通过SQL查询topic内的数据;Confluent Connetors:支持配置HDFS,Cassandra,MySQL,Oracle,Postgre,MongoDB,Kudu等数据源的source和sink;Conf

2020-09-24 02:43:01 3747 3

原创 Kafka系列(六)、Kafka开发套件kafka lenses 安装及使用(带WebUI)

Lenses 是kafka的一个商用套件,本次我们使用docker安装他们给我们提供的开源版本,该开源版本包含超多组件,对于平时开发使用来说很友好,不需要去安装一堆开发组件,它自带了Apache Kafka, Kafka Connect, Zookeeper, Confluent Schema Registry,Confluent REST Proxy 以及几个lenses开源的管理ui界面kafka-topics-ui, schema-registry-ui, kafka-connect-ui,

2020-09-23 15:12:42 1882

原创 CDC系列(二)、Maxwell_v1.27.1 监控MySQL操作日志实时同步到Kafka

在上一篇我们介绍了CDC工具,以及Canal的集群安装和使用,本篇我们来讲解另一个CDC工具:Maxwell。和Canal一样,Maxwell也是将自己伪装成MySQL的slave节点,通过监控MySQL的binlog来将数据操作日志同步到kafka等消息队列中供异构数据源使用。本篇我们会介绍Maxwell的安装和使用。和Canal一样,一定要至少准备一个MySQL库用于Maxwell的管理库存放状态信息以及用来监控的MySQL库,监控到的binlog导出到kafka,因此也需要准备kafka

2020-09-22 23:20:02 2419

原创 CDC系列(一)、Canal 集群部署及使用(带WebUI)

CDC(Change Data Capture)是一种捕获数据修改的技术方案,常常应用于异构数据源之间的数据同步。通常有两种解决方案:批式定时根据查询条件采集变更数据、监控数据源的操作日志。对于第一种批式的方案好处是门槛低成本低但坏处是可能会造成数据丢失以及数据有延迟等等,第二种日志方案好处很明显,比如对数据源侵入性低,数据时效性更高,不会有数据丢失的风险等等。在目前的关系型数据库中如MySQL、Oracle、SQLServer、Postgre等都提供了用于同步的日志解决方案,如MySQL基于binlog在

2020-09-22 15:03:54 8021 6

原创 Kafka系列(五)、开启SASL安全认证以及配置ACL权限控制

本篇是kafka系列的第五篇,介绍kafka配置安全认证SASL以及ACL权限控制,并使用控制台和python访问开启了SASL认证的kafka集群。

2020-09-18 14:52:56 10490 1

原创 Kafka系列(四)、消费者策略、Rebalance机制、Offset存储机制

本篇是kafka系列的第四篇,介绍kafka消费者策略,分区分配策略,Rebalance重分配策略,以及offset存储机制

2020-09-17 16:16:33 3000

原创 Kafka系列(三)、生产者分区策略、ISR、ACK、幂等性、事务机制

本篇是kafka系列的第三篇,介绍kafka生产者的分区策略、ISR、ACK机制,故障处理,一致性语义,Exactly Once精准一次性语义等

2020-09-17 01:24:34 1802

原创 Kafka系列(二)、架构原理及存储机制

本篇是kafka系列的第二篇,介绍kafka的架构原理,工作流程以及存储机制,然后讲解了kafka为什么这么高性能高吞吐的原因及优化的点。

2020-09-16 21:12:11 2653 1

原创 Kafka系列(一)、2.6.0版本kafka集群搭建

本篇是kafka系列的正式第一篇,首先介绍搭建kafka集群。Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。

2020-09-15 13:24:15 2341 5

原创 Zookeeper系列(三)、zk集群安装部署

目录下载安装简单使用Zookeeper系列:Zookeeper系列(一)、基础概念Zookeeper系列(二)、核心原理zk的安装很简单,这里简单介绍一下。下载清华镜像下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/v3.5.8安装又拿出了我的三台渣机器:wyk01,wyk02,wyk031. wyk01:解压下载的zk安装包#解压tar -zxvf apache-zookee.

2020-09-15 12:31:28 1710

原创 分布式存储系统Kudu(一)、核心原理

在前面的篇章中我们介绍了分布式文件系统HDFS 以及列式存储HBase,HDFS提供了可以横向扩展的存储引擎,适合离线分析场景,不适合于随机读写。HBase适合于随机读写,但由于Scan消耗性能,因此不适合于离线分析场景。因此既可以实现数据的快速插入与实时更新,又能实现对数据的快速分析的Kudu出现了。Apache Kudu 是由Cloudera 开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS 和 HBase 的功能的新组件,具备介于两者之间的新存储组件。Kud

2020-09-14 17:56:14 1386

原创 HBase系列(四)、HBase优化之RowKey 设计

上一篇中我们提到了HBase的读写原理,可以看出HBase是为写操作优化,更适合写多读少的场景,尤其是因为数据按列族和Region切分成一个个的StoreFile,在跨多文件查询数据的时候就会很慢。同时,由于Region切分策略,会让HFile出现数据倾斜的情况,因此我们在实际应用中首先要先设置预分区,指定HBase表有几个分区,每个分区内的RowKey范围,然后我们只要将RowKey的值尽可能均匀的放置在这些Region内即可。本篇我们就来介绍如何通过RowKey的设计提升HBase的读性能。

2020-09-11 16:07:48 1482

原创 HBase系列(三)、读写原理,Flush刷写,HFile Compact合并,Region Split切分

本篇内容介绍Hbase的读写原理及Flush,Compact,Split原理。为Hbase系列的第三篇。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase可在廉价服务器上搭建起大规模结构化存储集群。是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,使用Java语言进行实现。但是也有很多不同之处

2020-09-11 02:35:07 1198

原创 HBase系列(二)、架构原理

本篇内容介绍Hbase的架构原理。为Hbase系列的第二篇。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase可在廉价服务器上搭建起大规模结构化存储集群。是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,使用Java语言进行实现。但是也有很多不同之处

2020-09-10 14:54:56 672 1

原创 HBase系列(一)、数据模型

本篇内容介绍Hbase的数据模型。为Hbase系列的第一篇。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase可在廉价服务器上搭建起大规模结构化存储集群。是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,使用Java语言进行实现。但是也有很多不同之处

2020-09-10 00:35:10 1553

原创 分布式资源调度管理框架:YARN的架构及工作原理

Hadoop2.x引入了一个新的组件:YARN,它作为hadoop集群中的资源管理模块,为各类计算框架提供资源的管理和调度。负责管理集群中的资源:CPU,内存,磁盘,网络IO等等(v3.1.1版本之后新增了对GPU资源的管理)以及调度运行在YARN之上的各种计算任务。

2020-09-08 20:15:37 2618

原创 YARN查看和切换ResourceManager的状态

当YARN开启了HA之后,我们想要知道两个ResourceManager中哪台是ACTIVE,哪台是STANDBY状态,可以通过下面的方式来获取或切换它们的状态。

2020-09-07 11:37:15 8458

原创 分布式文件系统:HDFS 核心原理

HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据, 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。作为大数据生态最重要的组件之一,HDFS充当着大数据时代的数据管理者的角色,为各个分布式计算组件提供了分布式存储的能力。

2020-09-04 11:27:15 3151 3

原创 离线安装部署CDH6.3.2集群

今天用虚拟机离线安装CDH6集群,现在CDP7已经出了,但没有社区版了,CDP7装起来只能用个60天,相比于CDH6的组件只有hive和spark进行了大版本更新以及加入几个新的组件,所以这里还是装CDH6,主要还是因为好久以前就下好了parcel包。。。

2020-09-02 17:45:35 5935 4

原创 Zookeeper系列(二)、核心原理

上一篇我们介绍了Zookeeper的一些基础知识,本篇来讲解zk内部的一些核心原理,帮助我们更好的理解zk的工作机制。包括选举机制、Leader选举流程、Leader选举原理、Watch机制、会话管理、事务与写流程、Zab协议。

2020-09-01 23:46:27 816

原创 Zookeeper系列(一)、基础概念

前面的篇章中我们介绍了分布式系统中的CAP理论和BASE理论以及基于BASE理论的Raft算法,我们知道在分布式系统中最为复杂的就是解决分布式一致性的难题,在大数据生态中有一个工具,不仅自己实现了分布式的一致性服务并且还能为其他工具提供分布式一致性协调的服务,它就是Zookeeper,这个系列我们就深入学习一下zookeeper框架。

2020-09-01 23:41:50 804

rb_tree.html

该HTML文件提供离线对平衡二叉树之红黑树在线测试,可以将红黑树的变色旋转步骤显示出来,如果有疑问可以参考我的博客:https://blog.csdn.net/wsdc0521/article/details/107677009

2020-07-30

redisbloom.so

Redis的布隆过滤器(Bloom Filter)编译好的模块,基于github上的v2.2.3版本,可以直接加载到redis的模块中使用,如有疑问请参考我的博客。

2020-07-10

foursquare-datasource-plugin-clouderamanager-v0.9.2-0-g9ac3d25.zip

Grafana的CM插件,可以很方便的监控CDH集群的资源使用情况以及组件健康程度。支持Grafana3及以上版本。如何给Grafana安装此插件请参考我的博客,谢谢。

2020-05-13

使用Python监控本机资源情况写入InfluxDB并使用Grafana监控

使用Python监控本机资源情况写入InfluxDB并使用Grafana监控,对CPU,内存,磁盘使用率,网络流量进行监控并展现。具体内容请参考我的博客,谢谢。 https://blog.csdn.net/wsdc0521/article/details/106082411

2020-05-13

Pyqt5开发的股票查询工具_by_python.zip

基于python+PyQT5+QTDesigner开发的带有GUI的股票查询工具,具体请参考我的博客。https://blog.csdn.net/wsdc0521/article/details/105864817

2020-04-30

kafka-manager-web-1.0.0-SNAPSHOT.jar

由滴滴维护开源的kafka-manager,支持kafka0.10.2到2.4版本的多版本集群管控。修改默认mariadb为mysql8之后的编译版,可以搭配配置文件直接启动,具体使用请参考我的博客。https://blog.csdn.net/wsdc0521/article/details/105833978

2020-04-29

kafka-eagle-v1.4.6.tar.gz

国内大神开源的kafka监控系统,由于国外服务器下不动,分享我下载出来的最新版kafka-eagle-v1.4.6版本。参考博客:https://blog.csdn.net/wsdc0521/article/details/105812299

2020-04-28

azkaban_3.52.0_编译版.rar

Azkaban官方只有源码不提供编译,编译过程也有很多坑,因此上传此编译后的版本,基于官方3.52.0版本,如果需要其他版本可以参考我博客中的azkaban编译手册自行编译,谢谢。https://blog.csdn.net/wsdc0521/article/details/82856611

2019-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除