自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赵英超的博客

相互学习,共同进步,如果对你有帮助,请记得点赞支持,谢谢!

  • 博客(563)
  • 资源 (18)
  • 收藏
  • 关注

原创 【推荐】开源动态配置ares服务让业务飞起来,”赶超nacos、apollo,从此不再依靠 spring cloud config“

What is ARES?Open source dynamic configuration center with easy deployment and high stabilityAres系统是基于Java语言开发的,部署简单且高稳定性的动态配置系统.让您可以集中化、动态化管理自己应用中的配置.允许您的应用以监听和拉取结合的方式快速变更运行时的应用配置具有丰富的配置管理UI简化操作,同时也保障数据的隔离性与灵活性AboutAres系统目前在橙鹰公司内部使用,并稳定的

2020-12-31 15:30:53 1687

原创 【推荐】开源项目ElasticAmbari助力 ElasticSearch、Kibana、ambari服务高效运维管理

概述ElasticAmbari为Ambari的一组自定义服务,为Elastic的产品提供安装和管理的支持。项目地址:https://github.com/ChengYingOpenSource/ElasticAmbari开源不易,我们会持续维护和优化,惊喜不断请大家点赞收藏!特性支持Elastic全产品系列 支持Elastic各产品的各个版本,不要求特定版本许可证ElasticAmbari代码库基于Apache License 2.0许可证开放使用。欢迎参与.

2020-12-31 13:59:26 2755 1

原创 spark-sql显示表头header

【代码】spark-sql显示表头header。

2023-06-08 11:45:46 17

原创 spark-sql ORC Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: File already exists

试图在重新分区后将数据帧写入s3位置。但是每当write stage失败并Spark重试该stage时,它抛出FileAlreadyExistsException。在当重新提交工作时,如果spark在一次尝试中就完成了这一阶段,它会很好地工作。主要是Spark应该在重试之前从失败的阶段删除文件。如果我们将retry设置为0,这个问题就会解决,但是spark阶段预计会失败,这不是一个合适的解决方案。Spark配置中设置--conf。有关此配置的更多详细信息-

2023-06-08 09:52:04 3

原创 spark-sql写入对象存储路径不存在问题(异常路径自动消失)

由于多个 Task 同时写数据到 HDFS,如何保证要么所有 Task 写的所有文件要么同时对外可见,要么同时对外不可见,即保证数据一致性同一 Task 可能因为 Speculation 而存在两个完全相同的 Task 实例写相同的数据到 HDFS中,如何保证只有一个 commit 成功对于大 Job(如具有几万甚至几十万 Task),如何高效管理所有文件V1 committer(即的值为 1),commit 过程如下Task 线程将 TaskAttempt 数据写入。

2023-05-23 12:56:54 183

原创 hive metastore元数据同步&无效分区清理

元数据清理

2023-05-13 17:35:01 287

原创 spark-sql 报错:Exception thrown flushing changes to datastore

spark-sql hive

2023-05-10 10:58:25 361

原创 【必看】最全开窗函数讲解和实战指南

窗口函数

2023-03-20 21:11:35 432

原创 Mac用iTerm2连接到Linux上乱码

乱码

2023-02-27 10:18:40 143

原创 vi/vim下输入分隔符^A ^M

vi特殊字符

2023-01-03 18:58:40 878

原创 ClickHouse 查询时报错:Memory limit (for query) exceeded: would use 9.38 GiB

ClickHouse

2022-12-30 10:33:48 1429

原创 spark-sql 支持中文

spark-sql

2022-11-22 18:33:15 1224

原创 clickhouse设置加密用户名密码

clickhouse use password

2022-11-03 20:52:56 1839

原创 hive java.net.SocketTimeoutException: Read timed out 问题解

hive

2022-10-01 11:26:44 2038

原创 PRESTO SQL总结分享

presto sql

2022-10-01 10:16:31 3127 1

原创 YARN 集群的 Node 节点都处在 Unhealthy 状态

yarn 异常处理

2022-08-19 10:51:12 317

原创 zookeeper日志及快照清理操作

zookeeper

2022-08-19 10:33:55 1760

原创 spark hdfs azure对象存储

spark hive hdfs azure

2022-08-18 19:53:14 350

原创 presto安装部署教程

presto单机安装

2022-07-26 15:58:37 654

原创 源码编译 Failed to execute goal com.github.eirslett:frontend-maven-plugin Could not download Node.js

Failed to execute goal com.github.eirslett:frontend-maven-plugin:1.6:install-node-and-npm (install node and npm) on project tdpco-web-app-ui: Could not download Node.js: Got error code 404 from the server. -> [Help 1]解决方案:修改com.github.eirslett插件版本..

2022-05-05 17:03:37 1761

原创 yum install Couldn‘t open file /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7

碰见这样的错误:Couldn’t open file /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7cat /etc/yum.repos.d/epel.repo[epel]name=Extra Packages for Enterprise Linux 7 - $basearch#baseurl=http://download.fedoraproject.org/pub/epel/7/$basearchmetalink=https://mirrors.fedorapr

2022-03-25 11:22:30 422

原创 Maven加速编译技巧

maven编译加速

2022-01-29 15:23:52 2221

原创 mysql自动补全&语法高亮客户端mycli

介绍:MyCli是一个MySQL的命令行客户端,可以实现自动补全(auto-completion)和语法高亮,同时也可应用于MariaDB和Percona。项目官网:http://mycli.net/开源地址:https://github.com/dbcli/mycli功能特征:MyCli使用Python Prompt Toolkit编写。支持语法高亮当你输入SQL关键字,数据库的表格和列时可自动补全。智能补全(默认启用),会提示文本感应的(context-sensit.

2021-11-19 17:43:26 2053 1

原创 datax使用常见问题

1.datax支持Python3更新如下三个文件https://github.com/WeiYe-Jing/datax-web/tree/master/doc/datax-web/datax-python32. MYSQL8不支持目前dataX不支持mysql8.X,需更新reader和writer MYSQL插件包https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.18/mysql-connector-java

2021-11-16 15:10:11 3216 1

原创 Spark Structured Streaming Kafka offset提交监控

StreamingQueryListenerStreamingQueryListener,即监听StreamingQuery各种事件的接口,如下:abstract class StreamingQueryListener { import StreamingQueryListener._ // 查询开始时调用 def onQueryStarted(event: QueryStartedEvent): Unit // 查询过程中状态发生更新时调用 def onQueryP...

2021-10-25 21:03:22 1260

原创 node打包内存不足问题解决方式:Allocation failed - JavaScript heap out of memory

问题:详细报错内容:FATAL ERROR: Ineffective mark-compacts near heap limit Allocation failed - JavaScript heap out of memory解决方法1:安装:npm install -g increase-memory-limit执行:increase-memory-limit备注:本方法亲测有效;解决方法2:export NODE_OPTIONS="..

2021-09-29 10:42:06 5757 2

原创 关于数据库、数据仓库、数据湖、数据中台概念和区别

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。前言随着大数据技术的不断更新和迭代,数据管

2021-08-17 22:18:27 3138 1

原创 数据库实现原理

如今的软件开发其实大都是面向数据的开发,近些年,我们看到了数不胜数的各种存储,眼花缭乱。MySQL、Redis、Kafka、HBase、MongoDB、ClickHouse、Elasticsearch、Druid等等,甚至在计算引擎中也会有存储的出现。不禁感叹,组件千变万化!是否疲于学习各种技术组件?听我一句劝,研究永恒的东西,才让我们立于不败之地。不管任何的数据存储,它做的事情在最根本的角度,只有两个:给它数据,就把数据存下来 随时可以把数据取出来可能你会说,那是不是我们只需

2021-08-16 20:04:48 2909 2

原创 SQL排序之 row_number, rank(), dense_rank()区别

三者的区别如下:rank()排序相同时会重复,总数不变,即会出现1、1、3这样的排序结果; dense_rank()排序相同时会重复,总数会减少,即会出现1、1、2这样的排序结果; row_number()排序相同时不会重复,会根据顺序排序。具体实例建表、插入数据create table rownumber( id varchar(10) not null, name varchar(10) null, age varchar(10) null,

2021-08-11 19:42:26 4518 2

原创 VictoriaMetrics与Thanos方案对比

Thanos[1] 和 VictoriaMetrics[2] 都是用来作为 Prometheus 长期存储的成熟方案,其中 VictoriaMetrics 也开源了其集群版本[3],功能更加强大。这两种解决方案都提供了以下功能:长期存储,可以保留任意时间的监控数据。 对多个 Prometheus 实例采集的数据进行全局聚合查询。 可水平扩展。本文就来对比一下这两种方案的差异性和优缺点,主要从写入和读取这两个方面来比较,每一个方面的比较都包含以下几个角度:配置和操作的复杂度 可靠性和可用性

2021-07-29 20:42:33 1950

原创 数据治理之数据发现-元数据-DataHub

元数据是用来描述数据的数据(Data that describes other data)。下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,

2021-07-29 16:26:42 2898 1

原创 GitKraken使用教程

安装前请确认安装了node命令和yarn工具yarn安装教程请参考:Windows下 安装yarn,利用chocolatey软件包管理工具,比npm更快更稳定--梦逸灵箭的博客windows下载最新的安装包https://release.axocdn.com/win64/GitKrakenSetup.exe屏蔽更新打开host文件,写入以下内容,host具体位置可百度找一下。# gitKraken 更新屏蔽 127.0.0.1 release.gitkraken.com

2021-07-27 15:39:59 1883

原创 流处理开源项目flinkStreamSQL FlinkX简介

flinkStreamSQL熟悉flink的应该都了解,flink支持流表之间的join,但到1.6为止都不支持流表和维表的join。浪尖最近,也在开发流平台,需要到flink流表和维表的join。那么针对这个大家第一印象,可以写个算子去实现,比如map等。但是浪尖这里开发的流平台不是说自己写api,而是用户通过sql去实现创建source,sink,udf,sql等,这个时候要进行维表join,大家可能是想到了udf。是的对于只有一个维表的情况下使用udf比较方便,但是多个维表,相对就麻烦很多了。

2021-06-03 21:01:35 1514

原创 大数据管理神器:Ambari自定义stack和服务二次开发详细教程

背景Ambari是一个强大的大数据集群管理平台。在实际使用中,我们使用的大数据组件不会局限于官网提供的那些。如何在Ambari中集成进去其他组件呢?一、Ambari基本架构Ambari Server 会读取 Stack 和 Service 的配置文件。当用 Ambari 创建服务的时候,Ambari Server 传送 Stack 和 Service 的配置文件以及 Service 生命周期的控制脚本到 Ambari Agent。Agent 拿到配置文件后,会下载安装公共源里软件包(R.

2021-05-07 19:54:23 5679 6

原创 apache poi-检测到Zip Bomb解决方案

异常信息:Caused by: com.alibaba.excel.exception.ExcelAnalysisException: java.io.IOException: Zip bomb detected! The file would exceed the max. ratio of compressed file size to the size of the expanded data.This may indicate that the file is used to inflate

2021-04-13 11:18:14 6023 7

原创 SPRINGBOOT启动流程及其原理详解

Spring Boot、Spring MVC 和 Spring 有什么区别? 一 springboot启动原理及相关流程概览 二 springboot的启动类入口 三 单单是SpringBootApplication接口用到了这些注解   1)@Configuration注解   2)@ComponentScan注解 3)@EnableAutoConfiguration AutoConfigurationPackage注解: Import(AutoConfiguration...

2021-03-26 15:21:19 718

原创 深入kafka原理

一、Kafka集群 Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id,用于标识自己在集群中的身份,可以在配置文件 server.properties 中进行配置,或者由程序自动生成。下面是 Kafka brokers 集群自动创建的过程:每一个 broker 启动的时候,它会在 Zookeeper 的 /brokers/ids 路径下创建一个 临时节点,并将自己的 broker.id 写入,从而...

2021-03-16 17:18:51 389

原创 深入HBASE原理详解

HBase读数据流程HBase读数据流程HBase元数据信息.HBase读操作首先从zk中找到meta表的region信息,然后meta表中的数据,meta表中存储了用户的region信息 根据要查询的namespace、表名和rowkey信息,找到对应的真正存储要查询的数据的region信息 找到这个region对应的regionServer,然后发送请求 查找对应的region 先从metastore查找数据,如果没有,再从BlockCache读取。 ...

2021-03-16 16:50:00 460

原创 什么是云原生及飞轮理论详解【Cloud Native 是道,Service Mesh 是术】

前言特别指出:这次分享主要是希望起到抛砖引玉的作用,让大家更多的参与到云原生这个话题的讨论,希望后面有更多更好的分享。我们笨鸟先飞,起一个头。内容主要围绕这几个问题,上半场我们将围绕前三个问题。如何理解云原生?第一个话题:如何理解“云原生”?之所以将这个话题放在前面,是因为,这是对云原生概念的最基本的理解,而这会直接影响到后续的所有认知。每个人对云原生的理解都可能不同,就如莎士比亚所说:一千个人眼中有一千个哈姆雷特。我们来快速回顾...

2021-02-20 13:56:13 568 1

原创 Spark ML特征提取、转换和选择操作详解

一、特征的提取1、TF-IDF(词频-逆向文档频率) TF(词频):HashingTF与CountVectorizer用于生成词频TF向量。HashingTF是一个特征词集的转换器(Transformer),它可以将这些集合转换成固定长度的特征向量。HashingTF利用hashingtrick,原始特征通过应用哈希函数映射到索引中。然后根据映射的索引计算词频。这种方法避免了计算全局特征词对索引映射的需要,这对于大型语料库来说可能是昂贵的,但是它具有潜在的哈希冲突,其中不同的原始特征可...

2021-02-19 16:45:45 1247

GitkrakenCrack.zip

GitkrakenCrack.zip

2023-04-04

activiti 6.0汉化包,绝对可用

activiti 6.0汉化包,绝对可用.代码集成去除lib jar包

2018-11-29

ReceiverCleanupUtility

一、卸载Citrix Receiver两种办法 1、打开控制面板--程序和功能--卸载程序--Citrix Receive,进行卸载 2、通过官方提供的专业卸载工具进行卸载ReceiverCleanupUtility

2018-09-20

StarUMLv3.0.2 安装文件 破解补丁 集合

StarUMLv3.0.2 安装文件 破解补丁 集合 欢迎使用,支持正版!请勿商业使用!

2018-08-24

StarUML Setup 3.0.2

StarUML Setup 3.0.2 很好用哦!推荐! 破解文件见另一个地址!

2018-08-24

自动化运维工具 Ansible 详细部署

自动化运维工具Ansible详细部署

2016-07-07

SQL Delta 6.2.2.2066 crack 破解版

SQL Delta 6.2.2.2066 crack 破解版

2016-07-07

软件加密 打包 自动化安装 makeself

软件加密 打包 自动化安装 makeself

2015-12-30

bunifyDeploy

比Ansible更吊的自动化运维工具,自动化统一安装部署_自动化部署

2015-12-30

清华大学ARM培训教材.pdf

清华大学ARM培训教材.pdf 绝对有用

2013-01-09

Linux系统命令及其使用详解

Linux系统命令及其使用详解 Linux系统命令快速上升

2013-01-09

android手机wifi热点通信代码

android手机wifi热点通信代码 初学者必须的资料

2013-01-09

HTC__G11刷机教程

HTC__G11刷机教程 初学者必须文档

2013-01-09

linux-超级终端

linux-超级终端 linux开发必须工具

2013-01-09

嵌入式从零基础到精通的视频学习过程

嵌入式从零基础到精通的视频学习过程 很不错

2013-01-09

Linux内核完全注释完整版.

Linux内核完全注释完整版 很经典 很有用

2013-01-04

十个外贸超实用小工具网址.

十个外贸超实用小工具网址. 希望对大家有用 很不错哦

2013-01-04

GUI中文详细手册

GUI中文详细手册是GUI开发必备资料,很详细

2011-10-30

GUI编译通过内核

GUI编译通过内核,FPGA、ARM.....开发资料,界面很好很强大

2011-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除