自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 资源 (4)
  • 收藏
  • 关注

原创 Kettle连接Clickhouse 自定义插件

当前环境:clickhouse 19.15.1.1 (19年的老版本ch ,还未更新过)kettle 8.1.0.0-365 (因为8.1对parquet 支持较好,所以选了这个版本)当前问题:kettle -8 目前提供的JDBC 没有clickhouse。 需要自己手写插件,集成到kettle 系统。前期准备:搜到过类似新增JDBC的文章,包括:官网提供的自定义连接的方法 和 神通数据库的案例。官网提示地址:https://help.pentaho.com/Documen...

2020-12-04 12:36:20 7833 25

原创 ClickHouse 更新操作

clickhouse 更多应用在 查询select 和写入insert 上。 提供部分更新操作,但相比其他各大数据库的更新操作来说,效果已经很好了,下面来详细介绍一下 更新这一块。更新:1.update 及 delete 可以借用 alter table 进行单机表少量数据操作,(提示:truncate table 大量数据会造成卡顿,若在未完全清理情况下 ctrl+c 强行退...

2020-05-05 11:49:05 11798

原创 clickhouse 生产集群部署之坑坑洼洼

之前看过ck中文社区,看到了很多莫名其妙的Exception 但并没有解答。自己测试集群小量数据抽取也没有遇到这些问题。果不其然,生产集群部署都跳了一遍新增相关配置:网上找的,与我原本的配置的一些不同点<receive_timeout>800</receive_timeout> <send_timeout>800</send_time...

2019-12-03 15:57:34 7545 3

原创 Presto基础知识

引入Presto缓存之前 BackgroundHiveSplitLoader 使用底层的文件系统直接进行数据的读写;引入Presto缓存机制之后,底层的文件系统被被CachingFileSystem 代理一层CachingFileSystem 有两个子类,根据你选用的底层缓存引擎的不同可能会是下面的两个之一:AlluxioCachingFileSystem /əˈluːʒ(ə)n/: 在Presto Worker本地利用磁盘进行了数据的缓存。

2024-06-11 18:58:27 839

原创 Presto 从提交SQL到获取结果 源码详解(3)

对于非bucket表,在planFragment 阶段Stage的partitioning就被定义为 SOURCE_DISTRIBUTION,意味着split均匀分配给所有节点,2.2 可访问,尝试为该节点重新随机选择节点(不再考虑节点的worker上运行的split是否已经超过限制)/* 可能会抛出单节点split异常,负载过大*/SOURCE_DISTRIBUTION 需逐个节点调度分配,检查当前机器是否存在task,创建并执行该split(优化:逐个节点调优于逐个split调度)

2024-05-31 19:20:51 638

原创 Presto 从提交SQL到获取结果 源码详解(2)

需要实现optimize()方法。且需要自定义和实现整个Visitor的角色,即重载vistor*()的相关方法,例如visitAggregation,visitTopN,visitOutput等(PlanVisitor中定义了各种visit*()方法)大致流程:.optimize.visitPlan.rewrite.replace是否继续替换条件判断否:生成PlanNode返回当 PlanNode 接受 Rewriter时,会进行。

2024-05-29 19:30:52 574

原创 数据库内核-基础知识

哈希表:数组加链表,取字段Hash值做Key,B树: 树形结构,排序后N分查找B+树: 树形结构,仅叶子结点存放数据跳表索引:链表+链表,相当于一级链表基础上做了二级链表索引bitmap:数组存放0-1结构10进制值。数组Key为桶Index,Value为10进制数值,10进制数值转为2进制,通过2进制0-1 位数是否为1 判断该值是否存在。哈希索引用来提高点查询效率B 树索引用来提高范围查询B 树索引对高并发支持的诟病,引入跳表索引。

2024-05-29 19:29:53 720

原创 Presto 从提交SQL到获取结果 源码详解(1)

入口:com.facebook.presto.cli.Console.run()3. Presto execution.resourceGroups 资源组调用。1. Presto Client 提交SQL。2. 请求提交至服务端,服务端对象初始化。下文详细介绍各个执行计划构建过程。

2024-05-23 18:42:57 181

原创 情怀厂不相信情怀

Q1: 将附件中 ip_china.csv.zip文件加载为 Hive 内部表,保持格式与 csv header一致,表需要开启压缩Q5: 请输出总量数据下,存在登陆数据的各个province中,登陆时间最早的前3人及对应的登陆时间,若不满3人,需要留空

2024-03-21 18:39:48 411 2

原创 distcp map任务失败

hadoop --config xxxx_dir -put / get 均正常,只有distcp 失败,日志较少,只能定位到read file 阶段失败。即--config 除hdfs-site.xml 外,使用sink端的core-site.xml 等配置。正确链路应为:source hdfs => sink-yarn => sink hdfs。链路为:source hdfs => source-yarn => sink hdfs。原报错在sink端执行命令。

2023-03-31 18:46:31 223

原创 JVM 相关知识点总结

JVM相关知识点很多,总结了一部分,全是干货。JVM内部存储JVM内存区域分为虚拟机栈、本地方法栈、堆、方法区、程序计数器 虚拟机栈 局部变量、基本数据类型、对象引用、和字节码指令地址 、为java方法服务 本地方法栈 为本地方法服务 堆(主要探讨) 内存 方法区 类、常量、静态变量,线程内存 程序计数器 线程位置的计

2021-01-15 14:50:02 176

原创 K8s集群搭建(整体流程记录)

经过一个星期的尝试,k8s 终于搭建完成。目前网上关于k8s搭建的相关文档,大部分都一个样,互相copy。 其中坑也很多,但都没有在博客中提到。今天终于从坑中爬出来了,特此记录。个人理解:k8s 搭建 流程 : CentOs => utils依赖 => docker =>kubeadm, kubelet ,kubectl => master init => 调配网络 => node join => okWeb UI : 获取yaml =&...

2020-12-25 14:29:02 823

原创 K8s集群搭建(坑后总结)

前景: k8s 大火,诸多项目都有涉及,搭建个集群 学习一下 网上博客,资料众多。尝试了两篇不同的博客,不同安装方式,最后都已失败告终,并且不经意间删掉了已有的docker 环境。。。。 卡了我三天的问题,今天得到解决,写个文章记录一下。现状: k8s安装需依赖docker镜像。目前安装主要分两种, 一种calico 做网络通信, 一种是flannel 做通信。 第一种:calico 我卡在了master 初始化后,calico 调试完出现...

2020-12-23 13:32:22 2649 1

原创 Docker Hub 使用攻略

之前看过一篇文章。因为US制裁国内科技公司的原因,过段时间 ,名单上的那些公司不能再使用Docker了,于是谈了谈 Docker 的替代品。Docker 是可以轻松替代的,但Docker 背后的价值在于 Docker Hub 这个公共镜像平台。今天记录一下 Docker Hub 的使用及,如何自己上传下载 私人 image1. Docker Hub 注册账号Create a Repo2.服务器上输入docker login 回车 提示 username ...

2020-12-14 11:19:43 1079

原创 Shell 脚本高级篇 之 俄罗斯方块

记录一下偶然看到的shell 小游戏效果图:代码:#!/bin/bashAPP_NAME="${0##*[\\/]}"APP_VERSION="1.0"#颜色定义iSumColor=7 #颜色总数cRed=1 #红色cGreen=2 #绿色cYellow=3 #黄色cBlue=4 #蓝色cFuchsia=5 #紫红色cCyan=6 #青色(蓝绿色)cWhite=7 #白色#位置与大小marginLeft=3 #.

2020-12-14 09:13:10 210

原创 Grafana DashBoard : ClickHouse

监控类工具/视图 :Zabbix promtheus Grafana Loki 等对于ClickHouse 监控 ,原理上大同小异 :监控工具 prom 定时监控一些系统参数, 展示到Grafana 可视化界面。而Grafana 与 Zabbix 自身也可修改Source源,通过SQL监控一些数据库参数。本文介绍: Grafana 的使用 ,以ClickHouse Source 为例官网:https://grafana.com安装就先不介绍了,博客都有。...

2020-12-14 08:59:59 1010 2

原创 ClickHouse and K8s

最近k8s热度很高,于是调研一下clickhouse on k8s 的相关资料,并总结如下:情景一:用 ClickHouse 记录 K8S 产生的 集群日志。 1. 为什么不用es : es上手难度高,故障排查困难,维护索引和映射麻烦,性能不高. es优势 :固定文本结构与格式、日志处理、分析不需要全文索引。 个人认为 :es 处理日志,文本,模糊查询之类的优势还是很大的。 ...

2020-12-11 16:16:26 1082

原创 Docker-nginx-uwsgi-django究极完整版(史上最全版本)

Nginx 反向代理服务器;WSGI / Tomcat Web应用服务器;Django Web应用框架(非服务器,MTV的框架模式,即模型M,模板T和视图V。)正向代理与反向代理正向代理:客户端(个人PC)通过 代理服务器,访问被限制的网络。 例如:访问google,学校网络授权软件,通过代理匿名访问,网络加速器等。反向代理:服务器及网络 ,反向透明化。可以理解为 :客户端不需要更改任何代理配置,直接访问该网络,但不清楚自己访问的是不是对方原始ip地址,可能是网络映射。...

2020-12-09 11:29:21 725

原创 Kettle 常见问题与解决方法

1. Kettle 连接 HDFS 。 error : user home directory access 网上说的添加本机用户至/user/* ,用了没效果。 后在CDH ->Hive -> 操作 -> 下载客户端配置至本地 -> 解压至 -> D: \kettle8\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh513 替换原文件 编辑 config....

2020-12-08 09:19:12 2286

转载 大数据常见问题与解决方法

1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、java Kafka producer error:ERROR kafka.utils.Utils$ - fetc

2020-12-07 15:50:53 3897

转载 ClickHouse函数整理

1、日期类函数1.1 时间或日期截取函数(to)—— 返回非日期函数 用途 举例 结果 toYear() 取日期或时间日期的年份 toYear(toDateTime(‘2018-12-11 11:12:13’)) toYear(toDate(‘2018-12-11’)) 返回 2018 返回 2018 toMonth() 取日期或时间日期的月份 toMonth(toDateTime(‘2018-12-11 11:12:13’)) toMonth

2020-12-04 16:23:28 371

原创 ClickHouse 生产集群部署之常见问题

最新部署了一套新的测试集群,更改config.xml 的<listen_host>::</listen_host>监听所有ip 的访问时,遇到配置无效。server restart return UNKNOW .或者server 启动后自动断开查看/var/log/clickhouse-server/*发现问题/9000端口被占用了<Error> Application: DB::Exception: Listen [::]:9000 faile...

2020-12-03 16:56:22 2573 3

原创 ClickHouse JDBC引擎之clickhouse-jdbc-bridge

ClickHouse 自带MYSQL引擎,KAFKA引擎,JDBC等尝试clickhouse查询mysql/oracle/sql server数据,此处应用到JDBC 疫情。使用JDBC引擎,需安装第三方插件clickhouse-jdbc-bridge。目前clickhouse-server 还未集成该功能(后面可能会有此处优化)。因此需自主下载插件,安装到server 环境中clickhouse-jdbc-bridge github地址 :https://github.com/Click...

2020-12-03 13:06:55 1980

原创 django框架入门与解读 (五)-django问题梳理

1.创建model尽量提前确定字段类型,后续网页输入错误自带,错误提示而不是代码error。免去了捕获的编写2. id 复选框,多选<th><input type="checkbox" name="check_box"></th><td align="center"><input type="checkbox" name="check_box_list"></td>3.button 修改 状态信息 html<t

2020-10-26 16:35:55 141

原创 java面试题《小白基础整理》

再来10道java基础题,供一样白的你,一起学习分享1.JDK与JRE区别JDK是JAVA开放工具集,供给开发者下载JRE是运行环境,用于运行JAVA文件,供给程序用户下载。JDK安装包中自带JRE,JVM,因此 JDK>JRE2.==和equals()区别基本数据类型一般用 ==, 而 == 和 equals 比较的都是数值对象复合数据类型(String Integer Date)equals比较数值对象 ,==比较地址值3.final在...

2020-10-14 13:59:50 191

原创 几种不同的ETL工具简单理解

个人从开始了解ETL到现在,接触最多的还是sqoop,感觉sqoop更多见一点。也不清楚为什么那么多公司要求kettle\informatic等等。下面谈一下个人对这些工具的理解,及应用场景sqoop:个人感觉,大数据开发的同事大部分都会用,主要用于hive与 mysql/oracle等传统数据库之间的数据传输。即时性比较强,拿来即用,固定的脚本,拿过来改个地址改个库表名 ,就可以用。但只是用于传输,具体log要重定向打印,开发者自主查看进程。总体来说更偏向于开发者使用。kettle :图.

2020-10-14 11:26:09 2024

原创 linux 与 clickhouse 配合的常用命令

ls-alh 显示文件大小du -sh * 显示当前目录下的文件大小scp发送文件: scp ./a.xml dev_big@172.16.20.47:/home/dev_big/a.xmlwc -l 查看总行数tail -n 200 查看最后200行tail -100 |grep error 查看最后200行errorsed -n '7197000,7197500p' clickhouse-server.err.log 查看指定行区间内容top 实时cpu memfree.

2020-10-14 08:31:48 1480 1

原创 django框架入门与解读 (四)-文件导出

今天介绍一个数据excel导出功能对应查询界面的html 上 引出 导出功能 的button<div class="btn-group btn-group-sm custom-btn-group"> <a class="btn btn-success no-radius" id="excel2" href="/kpi/searchdownloads/"><i class="fa fa-bold"></i> 导 出</a>&lt

2020-10-13 09:37:29 270 2

原创 django框架入门与解读 (三)-ApScheduler 调度任务

前两篇介绍了个人对django 的简单理解。其实熟悉了流程,后面开发就是自由发挥了,感觉还是比较简单的。这种封装好的框架,只要做出了一个小功能,后面就能推出一百个。对着已有的框架套逻辑,都是大同小异的。就不多介绍了。如果有人需要的话,可以留言或私信我。(虽然写的很low,但整体功能还是有的)---------------------------今天介绍 django-apscheduler 与email 邮件结合,实现邮件定时检测与智能发送。django自己封装了crontab,可.

2020-10-12 16:58:24 627

原创 django框架入门与解读 (二)-项目初始化

上文简单介绍了主程序相关知识,本文开始介绍项目App相关知识1. 开始一个项目, 首先要明确需求,理清流程,总结知识点、大体模块。 本文为人力资源考核流程,则数据大体包含四个分支 考核本身信息:考核指标,指标定义,考核部门,考核标准,计算公式,目标值,实际值,得分,评级等 时间类信息:年份,季度周期,创建时间,更新时间,完成时间等 附属信息:填报备注,审核备注,文件上传等 用户基本信息:该账号用户名,登陆地址,所属部门等等 整理所有用...

2020-10-10 14:25:09 161

原创 django框架入门与解读 (一)-入门

入门理解:应用背景:后台管理系统、流程管理系统、小型信息平台功能:微小型平台,增、删、改、查笼统理解:django框架自带admin 管理系统。即django包含:程序平台+管理系统。程序平台为我们日常开发所需,针对特定逻辑实施特定开发。管理系统主要做平台权限管控,角色分组,访问权筛选等。是程序平台的管理者。该框架适合小型平台开发,集成能力强,开发简单 易懂。话不多说,直接上案例!项目举例: 人力资源绩效填报系统主要功能:完成整个绩效考核新增,填报,审核,汇总的流程,..

2020-10-10 13:48:13 190

原创 Clickhouse连接Tableau

一.配置本地ODBC 1.下载clickhouse ODBC 源 ,安装至本机 地址: https://github.com/ClickHouse/clickhouse-odbc/releases/download/v1.1.7.20200414/clickhouse-odbc-1.1.7-win64.msi 2.打开开始菜单,搜索ODBC配置数据源3.添加本地clickhouse ODBC driver4.按要求填写 host,port,name,datab...

2020-05-15 11:31:58 4460

原创 ClickHouse Join篇

join:1.Alter table mt drop partition '' 可删除本地分区 集群表的分区需要依次删本地表alter table dwd_dms_msg_detial_di drop partition ('201912','20191226')2.join 减少列,临时表不能起别名,只能更改字段名 避免冲突模糊不清3.普通join数据发到远程服务器形成右表 gl...

2020-05-06 21:04:02 4646

原创 ClickHouse 零散小知识总结(二)

1.重命名 rename table t1 to t22. SQL row() number 问题 因为clickhouse不支持开窗函数,特此写一个复杂sql 代替该函数的功能 select uid, value, row_number from( select uid, groupArray(value) as value_list, arrayEnumerate...

2020-05-06 20:59:13 848

原创 ClickHouse 零散小知识总结

1. clickhouse-jdbc 使用 google 的 cityhash128 算法实现,可SELECT cityHash128(*) 查看2.python 连接 from clickhouse_driver import Client client = Client(host='127.0.0.1', database='ads', user='default', ...

2020-05-05 15:37:12 465

原创 clickhouse ReplacingMergeTree及存储知识

业务场景:存在实时数据,需要更新当前情况:单机表可以实现 增删改查操作。但是集群表不行,特此引入ReplacingMergeTree引擎,实施ch后台自动去重操作特别提示:该引擎不能完全依赖去做去重,可能因为merge合并及诸多原因,存在极少量去重失败情况实际部署:本地表:ReplacingMergeTree(【ver】) PARTITION BY day PRIMARY KE...

2020-04-22 19:48:09 2851 2

原创 clickhouse 生产集群部署之坑坑洼洼(三)

Join 语句问题SELECT <expr_list>FROM <left_subquery>[GLOBAL] [ANY|ALL] INNER|LEFT|RIGHT|FULL|CROSS [OUTER] JOIN <right_subquery>(ON <expr_list>)|(USING <column_list>) .....

2020-03-31 20:08:22 565

原创 clickhouse 生产集群部署之坑坑洼洼(二)

clickhouse时间时区问题,配置文件:clickhouse.config.xml配置标签:<timezone>Asia/Shanghai</timezone>机器系统时间:date 、 timedatectl问题描述:业务接口实时插入数据(包含当前时间字段),但插入后显示时间为纽约时间、莫斯科时间等可能原因:1.建表时,元数据默认机器或莫斯科...

2019-12-04 16:42:05 1928

clickhouse-jdbc-0.1.50.jar

ru.yandex.clickhouse.ClickHouseDriver v0.1.50

2021-01-21

Kettle_Clickhouse_JDBC_v2

下载这个,Kettle_Clickhouse_JDBC_v2 .之前上传 的 没法删除

2020-12-17

clickhouse-jdbc-bridge

clickhouse-jdbc-bridge 1.0.1 github版本供下载使用.....................................

2020-12-03

cboard_.sql|cboard_.sql

cboard 基础数据

2020-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除