![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发
文章平均质量分 71
潘永青
阿里云-北京ACE同城会成员、上市企业数据开发组组长、数据架构工程师
展开
-
数据湖技术架构
数据湖转载 2023-01-29 16:47:05 · 2317 阅读 · 0 评论 -
flink&kafka-connector消费 protobuf格式数据
一、背景需求客流仿真系统是用C#写的,生成客流明细数据实时写入kafka。但是,,,同时写的也很慢,性能达不到要求。讨论之后,因为仿真数据是在redis集群上分布生成的,现直接以收集到的对象数据封装为protobuf,经实时数据总线(接口)转入kafak,flink实时消费数据,,,那么问题是,我要解析 protobuf数据格式、拆分为明细数据、md5、去重、关联基础数据,压力在我这边了,没办法先测试一把吧!二、protobuf模板对象生成1、使用protobuf将模板生成java文件首先下载一个windo原创 2022-07-04 15:20:59 · 1344 阅读 · 0 评论 -
c#使用Confluent.Kafka实现生产者发送消息至kafka(远程连接kafka发送消息失败的解决)
C# Confluent.Kafka实现生产者发送消息至kafka失败原创 2022-06-22 11:11:53 · 1090 阅读 · 0 评论 -
一个大数据架构师应该掌握的技能
硬能力一:平台建设 1.行业平台 1)大平台 谷歌云 亚马逊云 阿里云 腾讯云 网易云 华为云 2)小平台 国云 国双 青云 勤思 3)专业工具平台 海致BDP 永洪 易观 4)APP分析平台 mix panel growing IO 神策 诸葛 IO 2.技术选型 1)CDH 2)HDP+HDF翻译 2022-05-25 23:22:34 · 1675 阅读 · 5 评论 -
clickhouse.except.ClickHouseUnknownException异常
1、异常描述2、异常日志------------------------------------------------------------ The program finished with the following exception: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: org.apache.flink.client.pro原创 2022-03-26 00:09:38 · 7077 阅读 · 0 评论 -
flink批量写入clickhouse,频繁请求导致内存异常(非ck内置设置问题)
一、问题背景在综合决策平台客流预测实时计算过程中,flink30s步长窗口,需要实时大批量数据实时写入clikhouse,频繁请求导致内存异常。User class threw exception: ru.yandex.clickhouse.except.ClickHouseException: ClickHouse exception, code: 241, host: xxx.xxx.xxx.xxx, port: 8123; Code: 241, e.displayText() = DB::Ex原创 2022-03-23 11:01:51 · 5660 阅读 · 0 评论 -
CDH6.2.0 CM(Server)、NameNode被误删,元数据恢复
一、背景 同时手贱,不小心 执行 rm -rf /* ,5秒钟内关闭。但是系统基本坏掉 ,cdh直接down机。 ls 、cd、which 、,,,,各种命令用不了。阿里云服务器没有快照。终端连接不上。可以ping同。。。。不说了。没办法只能初始化,重点是怎么把hdfs的数据恢复。妈的。蛋疼。。。。二、操作1、初始化节点2、按cdh安装server节点的方式配置所以的操作3、在当前节点安装server、agent4、配置httpdyum -y install ...原创 2021-05-16 16:42:04 · 978 阅读 · 0 评论 -
Flink on Yarn 问题排查(rest.port与rest.bind-port 端口问题)
一、问题背景最近在做行车数据实时分析,为了后续批流一体化的开发,前期先做技术铺垫。目前使用Flink作为批流一体切入方案。以下是基于yarn模式提交 flinksql job时出现端口冲突的问题二、问题复述1、我目前使用的是flink-1.12.0版本。配置文件如下flink-conf.yamlmaster和worker配置vi masterbj-pan.com-04:11057vi workerbj-pan.com-02bj-pan.com-03...原创 2021-04-04 00:03:10 · 5768 阅读 · 3 评论 -
基于flinksql-1.12.1版本从kafka写入数据到mysql问题
1.背景描述基于flinksql-1.12.1 实现:kafka-—>etl---->Mysqlcreate table if not exists kafka_ods_trainlog( `trainid` BIGINT, `servenumber` BIGINT, `ordernumber` BIGINT, `stationid` BIGINT, `stopareaid` BIGINT, `isstopped` boolean,.原创 2021-03-22 21:14:56 · 895 阅读 · 0 评论 -
Flink1.12版本小总结
1.官网下载Apache Flink 1.12.1下载https://flink.apache.org/zh/downloads.htmlhttps://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.1/flink-1.12.1-src.tgzgit clone -b release-1.12.1 https://github.com/apache/flink.git --depth=1 flink-1.12.12.Flink1原创 2021-01-30 17:06:56 · 2016 阅读 · 0 评论 -
cdh6.2 yarn参数优化小记录(记录中)
一、闲扯 最近离线行车日志数仓,项目即将基于Lambda架构形式,实时基于flink框架,离线批处理基于 HiveOnSpark。中期基于这个机构。最后版本定位FlinkSQL 批流一体化。测试环境基于阿里云搭建的CDH。目前准备跑一下测试的flin实时作业和spark作业。内存有限,所以做了相关调整。略记录一下二、正题1、yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够.原创 2021-01-24 11:57:03 · 1293 阅读 · 2 评论 -
Elasticsearch官方已支持SQL查询,用起来贼方便!
https://www.jianshu.com/p/cf091da8fa77原创 2020-12-04 09:46:57 · 225 阅读 · 0 评论 -
IntelliJ IDEA 调试技巧
IntelliJ IDEA 调试技巧一、条件断点循环中经常用到这个技巧,比如:遍历1个大List的过程中,想让断点停在某个特定值。参考上图,在断点的位置,右击断点旁边的小红点,会出来一个界面,在Condition这里填入断点条件即可,这样调试时,就会自动停在i=10的位置注 意文末有:3625页互联网大厂面试题二、回到"上一步"该技巧最适合特别复杂的方法套方法的场景,好不容易跑起来,一不小心手一抖,断点过去了,想回过头看看刚才的变量值,如果不知道该技巧,只能再跑一遍.原创 2020-07-06 19:33:06 · 179 阅读 · 0 评论 -
CDH6.2.0-集群扩容(添加新节点)
向CDH6.2.0集群中添加新的主机节点一、新节点基本环境准备1、首先得在新的机器上关闭防火墙、修改selinux、NTP时钟与主机同步(阿里云忽略此步骤)2、在新的机器上环境中安装JDK、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和python.3、上传cloudera-manager文件到/opt目录[root@xx-xx cloudera-repos]# lscloudera-manager-agent-6.2.0-968826.el7.x86_64.rpm原创 2020-06-08 22:11:38 · 4093 阅读 · 0 评论 -
Spark作业基于Yarn模式提交File file:/tmp/spark- /__spark_libs__.zip does not exist
基于Yarn模式下spark作业执行遇到的问题1.spark作业提交模式脚本#!/bin/sh/home/hadoop/spark-2.1-hadoop2.6/bin/spark-submit \ --class cn.xx.bigdata.test.xxAppAcessLog \ --master yarn \ --deploy-mode cluster\ --executor-memory 1g \ --total-executor-cores 2 \ /home/h原创 2020-05-24 17:30:46 · 2912 阅读 · 0 评论 -
数据仓库之模型设计
数据仓库(模型设计)一、数据仓库与数据库的区别1、数据仓库是集成的,数据库为单一的业务提供服务。2、BI结构:数据整合层、数据服务层、应用分析层、信息展现层3、数据层库结构 ODS(临时存储层),一般都是贴源设计、业务数据库是什么,ODS层就是什么PDW/DW(数据仓库层),将年月日,拆分成年、月、日字段,一...原创 2020-03-22 21:01:22 · 9271 阅读 · 0 评论 -
基于Contos7.X+CDH6.2.0大数据平台搭建(上)
目录一、CDH6.2官网介绍二、CDH6.1.0安装前环境的部署三、CDH6.1.0安装四、CDH6.1.0的初始化五、CDH6.1.0的优化六、CDH6.1.0集群安装一、CDH6.2官网介绍:CDH(Cloudera's Distribution,including Apache Hadoop).是Haoop众多分支中的一种大数据,简称CDH,基于最稳定版...原创 2020-03-06 00:20:50 · 1271 阅读 · 0 评论 -
安装中文CentOS 6.5的详细步骤
安装中文CentOS 6.5的详细步骤1、可以使用U盘启动作为系统盘2、参考:http://jingyan.baidu.com/article/25648fc1a235c99191fd0008.html原创 2016-02-19 08:00:23 · 493 阅读 · 0 评论 -
mapreduce框架详解
Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。 我们要学习的就是这个计算模型的运行规则。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段和reduce阶段,转载 2016-06-19 11:13:17 · 626 阅读 · 0 评论 -
基于IDEA创建Web项目、部署、运行测试
一、创建简单web项目1、创建一个web projectFile -> new Project ->选择project sdk 为1.6(如果没有sdk的同学请先配置)-> Nextcreate project from template 页面,不勾选任何选项 -> Next输入项目名:webDemo -> Next -> Finish...原创 2019-04-05 11:14:07 · 925 阅读 · 0 评论 -
HBase原理
1.HBase架构结构图HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooKeeper集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下:其中HMaster节点用于:管理HRegionServer,实现其负载均衡。 ...原创 2019-04-27 23:13:00 · 186 阅读 · 0 评论 -
Centos 6.5 内核升级与安装 Docker
一、查看Centos的版本; docker要求Centos系统的内核高于3.10 查看内核版本 uname -r二、Centos系统的内核低于3.10.x(1).CentOS 6.5 升级内核到 3.10.28 1.1、导入public key rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrep...原创 2019-07-30 10:13:22 · 326 阅读 · 2 评论 -
CentOS6.0中如何设置快捷键调出终端
(2013-04-23 10:05:34)转载▼翻译 2016-02-01 14:00:20 · 545 阅读 · 0 评论