W-DW-CSDN博客

原创 WaterDrop初次体验--如何快速地将GreenPlum中的数据导入ClickHouse

如何快速地将GreenPlum中的数据导入ClickHouseWaterDrop认识我们引用官网的一段话来学一下WaterDrop的作用：Waterdrop 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于Apache Spark 和 Apache Flink之上。下面插入WaterDrop官网的链接地址，方便小伙伴更好的学习WaterDrophttps://int...

2020-04-06 12:18:52 2213 2

原创 Kafka安装教程

Kafka2.13-2.8安装教程

2022-06-01 16:42:55 1801 2

原创 Hadoop集群搭建分布式

Hadoop集群搭建

2022-06-01 16:15:23 332

原创 Atlas 2.2.0源码编译及安装步骤

Atlas 2.2.0源码编译及安装步骤一、源码编译1. 下载源码2. 前置环境安装3. 修改版本号4. 修改源码中 atlas与kafka版本兼容问题5. 开始编译6. 问题锦集二、安装步骤1. 安装解压Atlas2. 集成HBase3. 集成Solr4. 集成Kafka5. Atlas-Server配置6. 集成Hive7. 集成Sqoop[待完善]一、源码编译1. 下载源码 wget http://dlcdn.apache.org/atlas/2.2.0/apache-atlas-2.2.0-

2022-04-06 14:29:04 2884 1

原创阿里云Maven修改

阿里云Maven修改修改配置文件修改配置文件打开apache-maven-3.6.3/conf/settings.xml，找到 <mirrors></mirrors> 这对标签后添加一下内容<mirror> <id>aliyunmaven</id> <mirrorOf>*</mirrorOf> <name>阿里云公共仓库</name> <url>htt

2021-05-11 08:54:42 251

原创 ClinkHouse简介

ClinkHouse简介ClickHouse来源Yandex在2016年6月15日开源了一个数据分析的数据库，名字叫做ClickHouse，这对保守俄罗斯人来说是个特大事。更让人惊讶的是，这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件，例如Vertica。如果你没有听过Vertica，那你一定听过 Michael Stonebraker，2014年图灵奖的获得者，PostgreSQL和Ingres发明者（Sybase和SQL Server都是继承 Ingres而来的）, Paradigm4

2020-12-16 16:30:20 3142

原创快速排序(Java、Python)

快排核心思想：1．先从数列中取出一个数作为基准数。2．分区过程，将比这个数大的数全放到它的右边，小于或等于它的数全放到它的左边。3．再对左右区间重复第二步，直到各区间只有一个数。Java篇 public static void quickSort(int[] arr,int left,int rigth){ if (left > rigth){ return; } int base = arr[left];

2020-08-25 11:08:51 107 1

原创 hadoop-HA运行原理

HA运行原理

2020-07-18 21:31:22 126

原创 Hadoop-HDFS文件写入流程

HDFS文件写入流程

2020-07-18 21:30:02 134

原创 Hadoop-HDFS文件读取流程

HDFS文件读取流程

2020-07-18 21:29:05 123

原创大数据基础组件初步了解

大数据基础组件Hadoop 大数据生态圈HDFS 分布式文件存储系统MapReduce(MR) 基于磁盘计算Spark(RDD) 基于内存计算 SparkSQL 一般情况都是基于离线数据处理 Spark Streaming 一般情况是基于微批(实时)处理Flink 正儿八经的流式计算–消息队列Kafka 可理解生产者和消费者之间的数据传递–数据库Hive 主要面向于(离线)数据仓库使用，内部执行引擎(MapReduce/Spark)，读过Hive的朋友应该也知道可以自研一个开发引擎

2020-07-14 15:46:02 1681

原创 Hadoop端口8020 9000 50070

Hadoop端口理解hadoop端口理解8020900050070IDEA BUGhadoop端口理解80208020端口在hadoop1.x中默认承担着namenode 和 datanode之间的心跳通信，且也兼顾着FileSystem默认的端口号(就是hdfs客户端访问hdfs集群的RPC通信端口)，但是在hadoop2.x中，8020只承担了namenode 和 datanode之间的心跳通信，当然这些端口的设置是指的默认设置。<property> <name>fs

2020-07-14 15:22:29 19502 2

原创 Davinci0.3 安装手册

Davinci0.3 安装手册介绍davinci下载davinci安装包修改配置文件初始化davinci元数据启动及验证davinci服务介绍davinciDavinci 是一个 DVaaS（Data Visualization as a Service）平台解决方案，面向业务人员/数据工程师/数据分析师/数据科学家，致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用，也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用，并支持高级交互/行业

2020-07-11 16:46:16 1737 6

原创 linux 安装 rsync文件同步插件及脚本

最近在安装CDH环境，顺手总结一下linux文件同步脚本Centos7 修改yum源为阿里云登陆root帐号yum install wget ‐ycd /etc/yum.repos.d/mv CentOS‐Base.repo CentOS‐Base.repo.bakwget http://mirrors.aliyun.com/repo/Centos‐7.repomv Centos‐7.repo CentOS‐Base.repoyum clean allyum makecache安装rs

2020-06-21 09:53:42 295

原创 ClickHouse 入门语法了解

ClickHouse 语法学习2020DDL建表语句创建视图DML插入操作查询操作日期操作DDL建表语句create table temp.table_name(sold_time_partition_key Date, ---默认分区键字段id Int32, ----integer类型在CK中是默认以Int32为主user_name String, ---character varying/char 中默认字符类型为Stringpass_word Nullable(String), ---

2020-06-05 15:11:24 683

原创 WaterDrop--如何快速地将Kafka中的数据导入GreenPlum6关系型数据中

将Kafka中的数据导入GreenPlum6前言准备环境GP6建表Shell 开发WaterHouse.conf脚本部署、上线验证前言最近刚接到一个新的需求，将实时数据做成一个报表，报表好做是好做，但是数据源是如何获取的呢，目前我们的实时数据只有ClickHouse上进行存放的，但是传统型Cognos BI报表不支持CK数据的接入，故只能通过关系型数据库进行存储实时数据，我们目前的实时数据是通过Flink进行汇总计算的，然后通过kafka进行消息分发，故我们现在适应WaterHouse来接入kafka数

2020-05-21 21:10:01 790

原创 WaterDrop--如何快速地将MongoDB中的数据导入Hive

如何快速地将MongoDB中的数据导入Hive准备环境编写脚本-WaterDrop.confhdfs ==> hive调用shell并加之Azkaban进行任务调度最近我们有些MongoDB业务库的数据需要导入至Hive中，以前我是用的Kettle进行离线抽取GreenPlum，但是现在我们的数仓整体迁至Hive+Impala，导致使用kettle无法使用，使用sparkSQL又有点麻烦，需要部署jar之类的，由于我们之前就使用过WaterDrop工具将GP[GreenPlum4]中的数据导入CK[

2020-05-21 10:17:06 1287

一数博客

原创 WaterDrop初次体验--如何快速地将GreenPlum中的数据导入ClickHouse

原创 Kafka安装教程

原创 Hadoop集群搭建分布式

原创 Atlas 2.2.0源码编译及安装步骤

原创阿里云Maven修改

原创 ClinkHouse简介

原创快速排序(Java、Python)

原创 hadoop-HA运行原理

原创 Hadoop-HDFS文件写入流程

原创 Hadoop-HDFS文件读取流程

原创大数据基础组件初步了解

原创 Hadoop端口8020 9000 50070

原创 Davinci0.3 安装手册

原创 linux 安装 rsync文件同步插件及脚本

原创 ClickHouse 入门语法了解

原创 WaterDrop--如何快速地将Kafka中的数据导入GreenPlum6关系型数据中

原创 WaterDrop--如何快速地将MongoDB中的数据导入Hive

原创 GreenPlum6使用PXF进行连接HDFS、HIVE

原创 Spark获取CSV文件导入ClickHouse

原创 SpringBoot 在main或者普通类中条用service接口

原创 Solr7.7.2安装

原创 GreenPlum创建外部表

原创在某段时间内找出连续15天消费或登录的会员

原创 redis单机单节点安装及单机多节点安装教程

Vertamedia-clickhouse-grafana-1.9.5-0-g50d46ef.zip

空空如也