大数据
文章平均质量分 77
大数据先关技术,及业务
大数据开发工程师-宋权
攻城狮,嗷!!!!
展开
-
CDH增加节点
CDH增加节点1 机器配置在台机器上输入:vim /etc/hosts(省略)修改本机显示hostnamevi /etc/sysconfig/networkHOSTNAME=scdh01生效:service network restart2 卸载自带的jdk(如果有)[root@scdh01 ~]# rpm -qa |grep jdkjava-1.8.0-openjdk-headless-1.8.0.222.b03-1.el7.x86_64java-1.7.0-o.原创 2022-02-22 11:07:45 · 1973 阅读 · 0 评论 -
CDH集群安装文档
实时大数据平台安装文档文档编号 版本号 V1.0 名称 实时大数据平台安装文档 总页数 正文 编写日期 审批 1. 引言1.1 编写目的该手册旨在记录部署大数据CDH集群的流程,为后续作业提供参考,提高利用CM部署集群的效率和减少出现问题的可能性,帮助现场部署人员更好,更快地完成部署任务。1.2 环境及术语该手册要求,现场部署环境已经安装好操作系统,建议centos7.4,且网络已经原创 2022-02-22 11:01:10 · 1925 阅读 · 0 评论 -
Canal数据同步故障
1.背景 2022-01-2516:54收到研发反馈订单同步出现异常 2022-01-2517:10定位到问题,同步程序报错发送的消息体超过最大限制 2022-01-2517:25完成配置优化及重启 2022-01-2517:34完成数据验证,延迟消息已自动补回 2.异常分析1.报错分析ERRORc.a.o.canal.connector.kafka.producer.CanalKafkaProducer-java.util....原创 2022-02-21 09:53:16 · 3605 阅读 · 0 评论 -
RPC,HDFS,源代码解析
1.RPC 通信原理解析1)需求: 模拟 RPC 的客户端、服务端、通信协议三者如何工作的2)代码编写: (1)在 HDFSClient 项目基础上创建包名 com.atguigu.rpc (2)创建 RPC 协议package com.atguigu.rpc; public interface RPCProtocol { long versionID = 666;void mkdirs(String path); }(3)创建 RP..原创 2021-10-27 10:44:01 · 142 阅读 · 0 评论 -
kafka rebalance问题解决方案
写在前面估计运维年前没有祭拜服务器,Nginx的问题修复了,Kafka又不行了。今天,本来想再睡会,结果,电话又响了。还是运营,“喂,冰河,到公司了吗?赶紧看看服务器吧,又出问题了“。“在路上了,运维那哥们儿还没上班吗”? “还在休假。。。”, 我:“。。。”。哎,这哥们儿是跑路了吗?先不管他,问题还是要解决。问题重现到公司后,放下我专用的双肩包,拿出我的利器——笔记本电脑,打开后迅速登录监控系统,发现主要业务系统没啥问题。一个非核心服务发出了告警,并且监控系统中显示这个服务频繁的抛出如下异常。转载 2021-10-09 11:18:49 · 2465 阅读 · 0 评论 -
数仓面试题
1.数据仓库的定义?首先,用于支持决策,面向分析型数据处理;其次,对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库(Data Warehouse)是一个面向主题的(subject oriented)、集成的(integrated)、相对稳定的(non-volatile)、反应历史变化(time variant)的数据集合,用于支持管理决策(decision making support)。2.数据仓库和数据库的区别?从目转载 2021-07-18 11:22:11 · 1789 阅读 · 0 评论 -
(40)Azkaban调度
1.Azkaban安装,上网搜,有很多可以操作的博客2 创建 MySQL 数据库和表 1)创建 gmall_report 数据库 注:SQL 语句 CREATE DATABASE `gmall_report` CHARACTER SET 'utf8' COLLATE 'utf8_general_ci'; 2)创建表 (1)创建用户主题表 DROP TABLE IF EXISTS `ads_user_topic`; CREATE TABLE `ads_user_topi原创 2021-07-14 10:36:59 · 138 阅读 · 0 评论 -
presto操作异常
1.问题原创 2021-06-01 11:51:54 · 250 阅读 · 0 评论 -
Presto安装部署文档
Presto安装部署文档安装Presto服务节点概览master(ambari01):Coordinator&worker服务node1(ambari02):worker服务node2(ambari03):worker服务所需软件:jdk-8u212-linux-x64.rpmpresto-server-rpm-323-e.0.x86_64.rpmpresto-cli-323-e.0-executable.jar安装JDK安装高版本的Jdk8...原创 2021-05-27 16:25:14 · 502 阅读 · 0 评论 -
时序数据库InfluxDB
时序数据库InfluxDB一、什么是InfluxDB?InfluxDB是一款用Go语言编写的开源分布式时序、事件和指标数据库,无需外部依赖。该数据库现在主要用于存储涉及大量的时间戳数据,如DevOps监控数据,APP metrics, loT传感器数据和实时分析数据。InfluxDB特征:– 无结构(无模式):可以是任意数量的列(tags)。– 可以设置metric的保存时间。– 支持与时间有关的相关函数(如min、max、sum、count、mean、median等),方便统计。转载 2021-05-19 15:38:18 · 694 阅读 · 0 评论