大数据开发
文章平均质量分 78
喜欢吃燕麦粥的KeyL
这个作者很懒,什么都没留下…
展开
-
JVM 相关知识点总结
JVM相关知识点很多,总结了一部分,全是干货。JVM内部存储JVM内存区域分为虚拟机栈、本地方法栈、堆、方法区、程序计数器 虚拟机栈 局部变量、基本数据类型、对象引用、和字节码指令地址 、为java方法服务 本地方法栈 为本地方法服务 堆(主要探讨) 内存 方法区 类、常量、静态变量,线程内存 程序计数器 线程位置的计原创 2021-01-15 14:50:02 · 196 阅读 · 0 评论 -
K8s集群搭建(整体流程记录)
经过一个星期的尝试,k8s 终于搭建完成。目前网上关于k8s搭建的相关文档,大部分都一个样,互相copy。 其中坑也很多,但都没有在博客中提到。今天终于从坑中爬出来了,特此记录。个人理解:k8s 搭建 流程 : CentOs => utils依赖 => docker =>kubeadm, kubelet ,kubectl => master init => 调配网络 => node join => okWeb UI : 获取yaml =&...原创 2020-12-25 14:29:02 · 853 阅读 · 0 评论 -
K8s集群搭建(坑后总结)
前景: k8s 大火,诸多项目都有涉及,搭建个集群 学习一下 网上博客,资料众多。尝试了两篇不同的博客,不同安装方式,最后都已失败告终,并且不经意间删掉了已有的docker 环境。。。。 卡了我三天的问题,今天得到解决,写个文章记录一下。现状: k8s安装需依赖docker镜像。目前安装主要分两种, 一种calico 做网络通信, 一种是flannel 做通信。 第一种:calico 我卡在了master 初始化后,calico 调试完出现...原创 2020-12-23 13:32:22 · 2780 阅读 · 1 评论 -
Grafana DashBoard : ClickHouse
监控类工具/视图 :Zabbix promtheus Grafana Loki 等对于ClickHouse 监控 ,原理上大同小异 :监控工具 prom 定时监控一些系统参数, 展示到Grafana 可视化界面。而Grafana 与 Zabbix 自身也可修改Source源,通过SQL监控一些数据库参数。本文介绍: Grafana 的使用 ,以ClickHouse Source 为例官网:https://grafana.com安装就先不介绍了,博客都有。...原创 2020-12-14 08:59:59 · 1056 阅读 · 2 评论 -
ClickHouse and K8s
最近k8s热度很高,于是调研一下clickhouse on k8s 的相关资料,并总结如下:情景一:用 ClickHouse 记录 K8S 产生的 集群日志。 1. 为什么不用es : es上手难度高,故障排查困难,维护索引和映射麻烦,性能不高. es优势 :固定文本结构与格式、日志处理、分析不需要全文索引。 个人认为 :es 处理日志,文本,模糊查询之类的优势还是很大的。 ...原创 2020-12-11 16:16:26 · 1107 阅读 · 0 评论 -
Kettle 常见问题与解决方法
1. Kettle 连接 HDFS 。 error : user home directory access 网上说的添加本机用户至/user/* ,用了没效果。 后在CDH ->Hive -> 操作 -> 下载客户端配置至本地 -> 解压至 -> D: \kettle8\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh513 替换原文件 编辑 config....原创 2020-12-08 09:19:12 · 2403 阅读 · 0 评论 -
大数据常见问题与解决方法
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、java Kafka producer error:ERROR kafka.utils.Utils$ - fetc转载 2020-12-07 15:50:53 · 4000 阅读 · 0 评论 -
Kettle连接Clickhouse 自定义插件
当前环境:clickhouse 19.15.1.1 (19年的老版本ch ,还未更新过)kettle 8.1.0.0-365 (因为8.1对parquet 支持较好,所以选了这个版本)当前问题:kettle -8 目前提供的JDBC 没有clickhouse。 需要自己手写插件,集成到kettle 系统。前期准备:搜到过类似新增JDBC的文章,包括:官网提供的自定义连接的方法 和 神通数据库的案例。官网提示地址:https://help.pentaho.com/Documen...原创 2020-12-04 12:36:20 · 8039 阅读 · 25 评论 -
ClickHouse 生产集群部署之常见问题
最新部署了一套新的测试集群,更改config.xml 的<listen_host>::</listen_host>监听所有ip 的访问时,遇到配置无效。server restart return UNKNOW .或者server 启动后自动断开查看/var/log/clickhouse-server/*发现问题/9000端口被占用了<Error> Application: DB::Exception: Listen [::]:9000 faile...原创 2020-12-03 16:56:22 · 2712 阅读 · 3 评论 -
ClickHouse JDBC引擎之clickhouse-jdbc-bridge
ClickHouse 自带MYSQL引擎,KAFKA引擎,JDBC等尝试clickhouse查询mysql/oracle/sql server数据,此处应用到JDBC 疫情。使用JDBC引擎,需安装第三方插件clickhouse-jdbc-bridge。目前clickhouse-server 还未集成该功能(后面可能会有此处优化)。因此需自主下载插件,安装到server 环境中clickhouse-jdbc-bridge github地址 :https://github.com/Click...原创 2020-12-03 13:06:55 · 2027 阅读 · 0 评论 -
几种不同的ETL工具简单理解
个人从开始了解ETL到现在,接触最多的还是sqoop,感觉sqoop更多见一点。也不清楚为什么那么多公司要求kettle\informatic等等。下面谈一下个人对这些工具的理解,及应用场景sqoop:个人感觉,大数据开发的同事大部分都会用,主要用于hive与 mysql/oracle等传统数据库之间的数据传输。即时性比较强,拿来即用,固定的脚本,拿过来改个地址改个库表名 ,就可以用。但只是用于传输,具体log要重定向打印,开发者自主查看进程。总体来说更偏向于开发者使用。kettle :图.原创 2020-10-14 11:26:09 · 2253 阅读 · 0 评论