fct2001140269-CSDN博客

原创 XX数字中台技术栈及能力

XX数字中台面向数据开发者、数据管理者和数据应用者，提供数据汇聚、融合、治理、开发、挖掘、共享、可视化、智能化等能力，实现数据端到端的全生命周期管理，以共筑数字基础底座，共享数据服务能力，数字化赋能为战略,助力企业数字化转型。

2024-05-20 16:14:14 1738

原创一键导出数据库中表结构定义(数据字典)的工具

一键导出mysql等数据库中的数据字典文档

2023-11-01 14:28:16 554

转载 Windows10/11 搭建网络代理服务器

Windows10/11 搭建网络代理服务器

2023-07-19 18:45:46 10329

原创 presto和doris查询对比

presto和doris查询对比, 简单对比

2022-12-07 11:26:38 1905

参考资料：Hadoop集群搭建，14张过程截图超详细教程目录目录hadoop集群构建 for ljgk一、基础环境准备修改主机名称配置yum源1. 局域网中配置代理环境2.或者使用私有的yum源的方式关闭防火墙配置ip映射集群免密登录修改操作系统最大打开文件数(句柄数量)设置服务器时间同步二、构建hadoop集群安装jdk添加hadoop用户，并赋予权限(强烈推荐做)修改hadoop配置文件(不完全配置)格式化hdfs的节点验证部署结果[参考文档]HDFS新增节点与删除节点待完成(非紧急)搭建集群之前的准备

2022-12-07 11:23:37 1142

原创 [设计] Doris血缘解析流程

当前，数据血缘大多是对SQL语句进行解析，以发现上下游调用栈等信息。主流方案可分为两种：● 运行时解析，即在任务运行时通过hook接口或者listener接口对SQL生成的逻辑技术树（AST）进行解析。● 先采集后解析，即通过采集程序把各个计算引擎的SQL统一采集到mq进行血缘解析。

2022-12-07 11:05:36 4388 3

原创 [说明] Doris使用培训

Uniq 模型拳打KUDU、HUDI，Aggregate 模型脚踢Kylin、ClickHouse，Duplicate 模型跟Hive 势不两立。Doris+Flink将会是实时数据仓库的重要基石。

2022-12-07 10:59:44 978

原创 [选型] 实时数仓之技术选型

关于实时数仓的选型● 如果选择hbase，建议选择kudu● 如果选择kudu, 还可以选择doris● 如果选择doris，建议选择iceberg

2022-12-07 10:57:34 3855

原创解决hive表中文乱码问题

hive字段名称和字段描述等存储进如hivemetastore是中文，查询出来也是???等无法识别的中文乱码；

2022-12-07 10:53:01 2761

原创 [安装] HIVE搭建环境

生产环境hive集群架构

2022-12-07 10:40:24 385

原创 [安装] Doris集群搭建环境

doris安装方式选择：关于两种方式的选择，使用源码安装可以在系统环境与选择二进制安装所依赖的底层操作系统差异很大的情况下，直接使用源码编译的方式，成功率更高；如果与doris官方要求的依赖环境接近，可以直接使用二进制的安装更快速、便捷；

2022-12-07 10:36:35 2087

转载 100亿数据找出最大的1000个数字的4种方法

面试题解决的找出最大M个数的方法

2022-06-04 23:14:18 2372

原创 Spark性能调优基础

一、开发调优复用RDD并进行持久化对于同一份数据的读取，避免创建多个RDD，尽可能复用，并且对于多次使用的RDD进行持久化，避免重复计算。错误写法val rdd1 = sc.textFile("hello.txt")rdd1.map(...).count()val rdd2 = sc.textFile("hello.txt")rdd2.reduce(...).count()正确写法//不持久化，Spark默认还是会读取两次数据val rdd = sc.textFile("hello.

2022-01-29 14:45:05 2143

原创 [2021-09-29]一文弄懂RPC/序列化

一、问题思考面对大数据系统中几乎每天都会遇到的概念，序列化协议、PRC协议的区别与联系，你真的可以分清楚吗？常见的PRC协议有哪些？常见的序列化协议有哪些？序列化协议、PRC协议有什么关系？相等or包含？thrift是序列化协议还是rpc协议？如果你的反应是这个表情，那么就一起来温故知新吧~免责声明：本文并不在于理解源码或者技术细节，而在于统一某一方面的认知。内容简介：PRC为什么PRCRPC是什么一个经典的PRC简化后的PRC的核心的组成RPC调用过程手撕PRC代码

2021-09-29 17:44:12 554

转载 vmware虚拟机配置centos7.6静态IP地址

https://www.cnblogs.com/yyee/p/12781991.html

2020-12-20 20:59:27 346

原创 metacat-生态与架构

[20201127]-metacat1.metacat组件之提问接触一个新的组件的时候，我们需要首先提取一般共性需要解决发问的问题，例如metacat的问题如下：metacat是什么？matacat能干什么？metacat的组织架构是怎样的；metacat的请求响应的流程是什么？matacat为什么要用它？对比；预期带来的收益是什么？metacat适用的场景和一般使用方式是什么？metacat的搭建方式：有哪些？主流的是什么？怎样搭建、使用？metacat的运行状态监控（自带的web

2020-12-11 14:34:39 5022 4

原创 hive在linux下的搭建测试

hive在linux下的搭建测试参考文章：https://www.cnblogs.com/makeryan/p/11358953.html1.前言在linux环境(Ubuntu环境)构建hive的测试环境，方便本地客户端链接测试；环境准备：linux环境、需要hive安装包、mysql安装等；2.搭建过程安装 docker 过程https://blog.csdn.net/ljx1528/article/details/864248642.1搭建一个mysql系统docker run -

2020-11-06 19:18:33 367

原创 LRU 缓存淘汰算法

如何实现 LRU 缓存机制1. 参考链接：如何实现 LRU 缓存机制 https://mp.weixin.qq.com/s?__biz=MzAxODQxMDM0Mw==&mid=2247484500&idx=1&sn=83f4df1253f597898b2f74ea9dca9fd9&chksm=9bd7fa5caca0734ad182ba67651882647a71264938eaa98e49c5ff43369b807a094ad16efcd4&scene=21#

2020-10-18 15:20:07 556 4

转载从初级工程师发展到高级工程师，需要跨越的鸿沟

转载地址：https://www.toutiao.com/a6878215946150871559/程序员是吃青春饭的吗？等我们老了，技术过时了，公司有什么理由不裁掉我们，去雇一些既有活力、薪资要求又低的年轻人呢？这个老生常谈的问题困扰着诸多渐入中年的程序员。本文告诉你如何增强自己的核心竞争力，在知识飞速更新的行业中站稳脚跟，跨过“初级工程师”和“高级工程师”之间的鸿沟。我曾在 CS 职业论坛 /r/cscareerquestions 上回答了一个问题，该回答描述了我在程序员职业道路早期必须要涉足

2020-10-15 23:35:37 851

原创【生产上线】监控告警体系设计方案

【生产上线】监控告警体系设计方案Created by arch | Time：2020/02/19一、系统监控的目的和范围：1.1 监控的目的在生产环境中，保证系统服务运行的稳定性、可靠性十分重要。一方面，要求在服务运行过程中，对服务的运行状态、负载情况有时刻的掌握；另一方面在服务中断或者错误报出后，及时告警并发现问题，获取日志、还原问题场景、排除bug；1.2监控的范围纵向的监控体系从上往下分为4个层次的监控（最大外延和最小内涵）：第1层：业务级业务的监控对象包括业务关心的各项指标，例如关

2020-10-12 16:08:22 1445

原创将指定的groupid相关kafka的topic中的offset更新到latest的最新位置

将指定的groupid相关kafka的topic中的offset更新到latest的最新位置如果使用java api的方式，将offset更新到特定位置(此处为最新的数据位置)，详见下面的代码；package mykafka.gainoffset;import org.apache.kafka.clients.consumer.KafkaConsumer;import org.apache.kafka.common.TopicPartition;import java.util.ArrayLi

2020-10-10 14:46:35 956 1

原创 shell更新kafka的offset到最新的位置

更新kafka的offset到最新的位置1.进入docker容器，用来执行kafka相关的更新offset的命令；docker ps | grep kafka | awk '{print $1}'2.执行如下命令，用来将执行kafka集群中的groupId的offset更新为最新；/opt/kafka/bin/kafka-consumer-groups.sh --bootstrap-server 172.19.32.116:9192 --group fang-groupid-105 --res

2020-10-10 09:16:29 1419

原创 kafka传递大消息体时的配置

kafka传递大消息体时的配置created by cms/fangchangtan | 2020/09/301.生产端设置//数据太大，发送失败，设置 max.request.sizeprops.put("max.request.size", "300000000");/*socket 在读写数据时用到的TCP 缓冲区也可以设置大小。如果它们被设为-1 ，就使用操作系统的默认值。如果生产者或消费者与broker 处于不同的数据中心内，可以适当增大这些值，因为跨数据中心的网络一般都有比较高的延迟

2020-09-30 11:07:21 2286

原创 docker部署ftp服务器

docker部署ftp服务器1.背景 FTP是一种传输协议，FTP服务器可以有客户端通过FTP协议访问，上传或下载文档。有什么用，其实就是很多人公用存储资料。2.拉取构建ftp服务器查看官网提供的ftp说明https://hub.docker.com/r/fauria/vsftpd使用最新的fauria/vsftpd镜像即可。官网提供的搭建建议：（生产环境中可用，已经绑定账户，挂载目录，启动了 FTP 的主动和被动模式）docker run -d -v /my/data/dire

2020-09-30 11:06:28 1288

转载 kafka的相关参数

kafka的相关参数https://www.cnblogs.com/51python/p/10966757.html

2020-09-27 19:33:59 236

原创二叉树知识点

二叉树知识点1.1二叉树的前序、中序、后序遍历二叉树的前序、中序、后序遍历（递归与非递归）/**前序:递归方式*/public void preOrder( TreeNode root){ if(root == null) return; System.out.println(root.val); preOrder(root.left); preOrder(root.right); }/**前序:非递归方式*结果放入ArrayList中*/public

2020-09-20 23:47:29 191

原创手撕排序算法

归并排序//归并排序--采用分治法，先分后治，递归的解决问题/***分：将大问题拆分为小问题。具体来说，将数组氛围左右两个数组，然后递归的调用治理* 治：采用合并有序数组的方式*/public void mergeSort(int[] arr, int left, int right){ if(left < right){ int mid = left +right; mergeSort(arr, left,mid); mergeSo

2020-09-20 21:54:13 598 1

转载 K8S部署elasticsearch

在k8s上部署elasticsearchhttps://staight.github.io/2019/09/16/%E5%9C%A8k8s%E4%B8%8A%E9%83%A8%E7%BD%B2elasticsearch/

2020-09-10 13:42:22 1261

转载数据仓库

https://www.cnblogs.com/zhoufei2514/category/1367647.html数据仓库的系列文章，值得一看

2020-09-08 20:44:47 213

原创 Spark心跳存活-延迟处理-异常日志告警

Spark心跳存活-延迟处理-异常日志告警1.目录大纲spark异常日志告警spark存活心跳告警spark批次处理延迟告警2.任务背景2.1问题背景生成中针对spark steaming的程序进行告警的设置，生产上线需要监控spark streaming的异常日志的告警，及时发现生产线中的异常问题，方便快速定位问题；同时对spark 通过心跳机制对spark的异常下线问题告警，方便运维人员及时通知运维人员跟进，恢复程序运行。2.2 技术路线1.基于以往的告警研究，监控日志

2020-08-11 14:36:43 1194

原创 java批量创建删除Kafka的topic

java批量创建删除Kafka的topic一、前言参考资料：Kafka 0.11客户端集群管理工具AdminClienthttps://blog.csdn.net/u012501054/article/details/805943742.批量创建删除Kafka的topic2.集群管理工具AdminClient （新版本kafka）较为新的版本：Kafka 0.11以上版本上测试的,新的API集群管理工具AdminClientpackage zktest.navinfo;import or

2020-08-11 14:29:26 652

转载干货！操作系统基础知识汇总！转给要面试的同学吧

干货！操作系统基础知识汇总！转给要面试的同学吧https://mp.weixin.qq.com/s?__biz=MzU1NTkwODE4Mw==&mid=2247484950&idx=1&sn=3d2a21ed48d2348485c0ac1404c21b2d&chksm=fbcc6b2eccbbe2387cc197fe5dbadbd927bc9361411993481b5014b0da9cb49c0c923841da03&mpshare=1&scene=1&

2020-08-05 19:43:26 231

原创 Spark history UI历史监控构建

typora-copy-images-to: …\typora-pictureSpark history UI历史监控构建created by fangchangtan | 202006091 构建历史spark ui回放功能的目的 spark steaming运行过程中，如果spark streamming程序异常终止，则spark ui后台线程立即消失，导致后期追踪恢复spark问题现场困难，此时只能通过spark的日志来发现问题，但是spark的日志本身保存时间短（2天），日志中可.

2020-06-18 11:23:08 1222

原创 confluence迁移，与jira同步账户遇到的权限问题

一、问题场景需要将外网中的confluence和jira全部迁移到内网中，即在内网中安装jira和confluence，激活，并迁移外网数据到内网中；二、问题描述：在将confluence中，将jira的账户同步到confluence中的时候，出现同步失败的问题。三解决方法：第一步：（1）在jira中要使用管理员用户设置允许连接的用户目录，（以往随机创建的非管理员用户是不行的）；（2）同时设置对应的允许连接的ip。可以设置多个，这个允许ip也很关键！同时在confluence中用户

2020-05-14 16:31:51 1690 2

原创 docker安装redis-dump工具

离线安装redis-dump工具1 场景和问题1.1 redis-dump工具作用 redis-dump可以将redis数据库中的各个slot中的数据导出到文本中，方便迁移备份数据；1.1 为什么采用redis-dump容器的方式使用普通的物理机直接安装redis-dump工具，需要下载各种各样的依赖，相对都比较麻烦（例如安装ruby2.2以上版本的依赖），各种rvm依...

2020-04-11 15:45:45 1262 1

原创安装redis-dump命令

安装redis-dump命令1.安装redis-dump执行的shell脚本如下：#!/bin/bash#首先到tmp下，用来存放下载的安装文件cd /tmpmkdir rvmcd rvm# 开始安装RVMgpg --keyserver hkp://keys.gnupg.net --recv-keys 409B6B1796C275462A1703113804BB82D39DC0...

2020-03-25 21:29:01 623

原创大数据组件监控体系构建

大数据监控体系构建基于开源xxx_exporter+promethues+grafana的构建监控系统1.概况其中，exporter一般是使用来采集各种组件运行时的指标数据；promethues构建指标时序数据库；grafana构建指标显示面板；目前已有各种docker容器方便的构建各种监控体系；2.详细构建过程其中我的promethues的配置如下：#全局配置信息：glob...

2020-03-20 22:11:23 1256

原创 Kafka保证消息不丢失

Kafka保证消息不丢失kafka保证消息不丢失，需要从三个方面考虑：生产者端消息不丢失kafka服务器broker本身消息不丢失消费者端消息不丢失这篇文章对最新发送kafka数据丢失的情况做一个总结。1.为什么要出这样一个文档首先，部门很多人都kafka的使用不太懂，主要集中才kafka参数的设置使用，比如producer、server下的topic参数、consumer使用，...

2020-03-12 22:25:37 482

aws-general.pdf

AWS 一般参考这是 Amazon Web Services 一般参考。内容 • AWS 区域和终端节点 (p. 2) • AWS 安全凭证 (p. 160) • Amazon 资源名称 (ARN) 和 AWS 服务命名空间 (p. 174) • 签署 AWS API 请求 (p. 212) • AWS 服务限制 (p. 248) • AWS 的 IP 地址范围 (p. 332) • AWS 中的错误重试和指数退避 (p. 340) • AWS 开发工具包对 Amazon S3 客户端加密的支持 (p. 342) • 需要 AWS 账户根用户凭

2019-07-12

下一代消息中间件--pulsar

Apache Pulsar是一个企业级的分布式消息系统，最初由Yahoo开发并在2016年开源，目前正在Apache基金会下孵化。Plusar已经在Yahoo的生产环境使用了三年多，主要服务于Mail、Finance、Sports、 Flickr、 the Gemini Ads platform、 Sherpa以及Yahoo的KV存储。

2018-10-20

Spark基本原理与设计思想

Spark是一个通用的并行计算框架，由加州伯克利大学（UC Berkeley）的AMP实验室开发于2009年，并于2010年开源，2013年成长为Apache旗下在大数据领域最活跃的开源项目之一。虽然Spark是一个通用的并行计算框架，但是Spark本质上也是一个基于map-reduce算法模型实现的分布式计算框架，Spark不仅拥有了Hadoop MapReduce的能力和优点，还解决了Hadoop MapReduce中的诸多性能缺陷。

2018-10-20

kafka+flume+kafka中问题.pdf

flume从kafka读取数据，然后再sink到kafka中，这种场景下会出现问题。 (1)现象表示为： flume从kafka读取数据,sink的sinkTopic中没有数据，也无法从sinkTopic中读取数据； (2)原因分析: 如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events，便会遇到Kafka Topic覆盖问题，具体表现为，Kafka Source可以正常从指定的Topic中读取数据，但在Kafka Sink中配置的目标Topic不起作用，数据仍然会被写入到Source中指定的Topic中。

2019-07-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人