大数据运维
a904364908
白了头.
展开
-
Flume采集rsync同步文件,有重复数据,解决方案
最近线上做测试,因为有服务布在公网云,kafka和hadoop集群布在私有云.所以想采用flume->kafka->flume->hadoop方案,将公有云的服务日志收集到hadoop集群. 因为公有云上服务布的节点节点比较多,所以采用rsync方式,将所有应用日志采集到一台服务器上.再用flume做采集. 开始flume使用agent.sources.s1.type = TAILDIR的方式,将日志发送过去以后,发现日志有重复数据. 排查以后发现,rsync用了 -avz 参数, 网上查原创 2021-01-21 12:35:55 · 951 阅读 · 0 评论 -
clickhouse系列之二:clickhouse遇到的报错问题及解决方法
问题一,启动报错 启动参数:sudo clickhouse-server --config-file=/etc/clickhouse-server/config.xml 2020.08.20 18:49:28.189321 [ 29338 ] {} <Error> Application: DB::Exception: Effective user of the process (root) does not match the owner of the data (clickhouse). R原创 2020-08-20 19:10:38 · 38351 阅读 · 1 评论 -
clickhouse系列之一: clickhouse简介与安装
Clickhouse 简介 Clickhouse 是一个开源的面向联机分析处理(OLAP, On-Line Analytical Processing)的列式存储数据库管理系统。 Clickhouse 的优势: - 写入快、查询快 - SQL 支持 - 简单方便,不依赖 Hadoop 技术栈 - 支持线性扩展 - 深度列存储 - 向量化查询执行 - 数据压缩 - 并行和分布式查询 - 实时数据更新 Clickhouse 的不足: - 不支持事务 - 不适合典型的 K/V 存储 - 不适合 Blob/Do..原创 2020-08-13 17:03:05 · 557 阅读 · 0 评论 -
HBase完全分布式搭建
前言 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处...原创 2019-04-21 17:52:23 · 296 阅读 · 0 评论 -
sqoop导入hive警告WARN TableDefWriter:Column height had to be cast to a less precise type in Hive
最近在进行用sqoop将业务表数据导入到hive,在导入的时候发现一直在报一个WARN,WARN TableDefWriter:Column height had to be cast to a less precise type in Hive. 具体日志贴图. 看到报警以后,查看了hive表的数据,发现数据并没有丢失,又查看了hive表结构,发现很多字段的数据类型发生了改变.在进行表导入的时候...原创 2019-05-24 22:37:01 · 1978 阅读 · 0 评论 -
Azkaban的简介和安装(3.47.0版本,两个服务模式安装)
Azkaban简介 官网: https://azkaban.github.io/ Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。 Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: Web用户界面 方便上传工作流...原创 2019-06-08 23:46:50 · 528 阅读 · 0 评论 -
Azkaban的简单实战案例
Azkaban安装成功以后就可以进行任务调度了,这里简单演示几个调度任务。 单一job示例 创建文本文件,更改名称为mycommand.job 内容如下 type=command command=echo 'hello world' 将job资源打包成zip文件 通过azkaban的web管理平台创建project并上传job压缩包 首先创建project 上传zip包 启动执行job...原创 2019-06-14 22:20:00 · 204 阅读 · 0 评论 -
spark读取MySQL的方式及并发度优化
前段时间用sparksession读取MySQL的一个表的时候,出现耗时长,频繁出现oom等情况,去网上查找了一下,是因为用的默认读取jdbc方式,单线程任务重,所以出现耗时长,oom等现象.这时候需要提高读取的并发度.现简单记录下. 看sparsession DataFrameReader源码,读取jdbc有三个方法重载. 单partition,无并发def jdbc(url: String,...原创 2019-07-07 16:47:20 · 4540 阅读 · 1 评论