自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 WaterDrop初次体验--如何快速地将GreenPlum中的数据导入ClickHouse

如何快速地将GreenPlum中的数据导入ClickHouseWaterDrop认识我们引用官网的一段话来学一下WaterDrop的作用:Waterdrop 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上。下面插入WaterDrop官网的链接地址,方便小伙伴更好的学习WaterDrophttps://int...

2020-04-06 12:18:52 2213 2

原创 Kafka安装教程

Kafka2.13-2.8安装教程

2022-06-01 16:42:55 1801 2

原创 Hadoop集群搭建分布式

Hadoop集群搭建

2022-06-01 16:15:23 332

原创 Atlas 2.2.0源码编译及安装步骤

Atlas 2.2.0源码编译及安装步骤一、源码编译1. 下载源码2. 前置环境安装3. 修改版本号4. 修改源码中 atlas与kafka版本兼容问题5. 开始编译6. 问题锦集二、安装步骤1. 安装解压Atlas2. 集成HBase3. 集成Solr4. 集成Kafka5. Atlas-Server配置6. 集成Hive7. 集成Sqoop[待完善]一、源码编译1. 下载源码 wget http://dlcdn.apache.org/atlas/2.2.0/apache-atlas-2.2.0-

2022-04-06 14:29:04 2884 1

原创 阿里云Maven修改

阿里云Maven修改修改配置文件修改配置文件打开apache-maven-3.6.3/conf/settings.xml,找到 <mirrors></mirrors> 这对标签后添加一下内容<mirror> <id>aliyunmaven</id> <mirrorOf>*</mirrorOf> <name>阿里云公共仓库</name> <url>htt

2021-05-11 08:54:42 251

原创 ClinkHouse简介

ClinkHouse简介ClickHouse来源Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大事。更让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件,例如Vertica。如果你没有听过Vertica,那你一定听过 Michael Stonebraker,2014年图灵奖的获得者,PostgreSQL和Ingres发明者(Sybase和SQL Server都是继承 Ingres而来的), Paradigm4

2020-12-16 16:30:20 3142

原创 快速排序(Java、Python)

快排核心思想:1.先从数列中取出一个数作为基准数。2.分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边。3.再对左右区间重复第二步,直到各区间只有一个数。Java篇 public static void quickSort(int[] arr,int left,int rigth){ if (left > rigth){ return; } int base = arr[left];

2020-08-25 11:08:51 107 1

原创 hadoop-HA运行原理

HA运行原理

2020-07-18 21:31:22 126

原创 Hadoop-HDFS文件写入流程

HDFS文件写入流程

2020-07-18 21:30:02 134

原创 Hadoop-HDFS文件读取流程

HDFS文件读取流程

2020-07-18 21:29:05 123

原创 大数据基础组件初步了解

大数据基础组件Hadoop 大数据生态圈HDFS 分布式文件存储系统MapReduce(MR) 基于磁盘计算Spark(RDD) 基于内存计算 SparkSQL 一般情况都是基于离线数据处理 Spark Streaming 一般情况是基于微批(实时)处理Flink 正儿八经的流式计算–消息队列Kafka 可理解生产者和消费者之间的数据传递–数据库Hive 主要面向于(离线)数据仓库使用,内部执行引擎(MapReduce/Spark),读过Hive的朋友应该也知道可以自研一个开发引擎

2020-07-14 15:46:02 1681

原创 Hadoop端口8020 9000 50070

Hadoop端口理解hadoop端口理解8020900050070IDEA BUGhadoop端口理解80208020端口在hadoop1.x中默认承担着namenode 和 datanode之间的心跳通信,且也兼顾着FileSystem默认的端口号(就是hdfs客户端访问hdfs集群的RPC通信端口),但是在hadoop2.x中,8020只承担了namenode 和 datanode之间的心跳通信,当然这些端口的设置是指的默认设置。<property> <name>fs

2020-07-14 15:22:29 19502 2

原创 Davinci0.3 安装手册

Davinci0.3 安装手册介绍davinci下载davinci安装包修改配置文件初始化davinci元数据启动及验证davinci服务介绍davinciDavinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业

2020-07-11 16:46:16 1737 6

原创 linux 安装 rsync文件同步插件及脚本

最近在安装CDH环境,顺手总结一下linux文件同步脚本Centos7 修改yum源为阿里云登陆root帐号yum install wget ‐ycd /etc/yum.repos.d/mv CentOS‐Base.repo CentOS‐Base.repo.bakwget http://mirrors.aliyun.com/repo/Centos‐7.repomv Centos‐7.repo CentOS‐Base.repoyum clean allyum makecache安装rs

2020-06-21 09:53:42 295

原创 ClickHouse 入门语法了解

ClickHouse 语法学习2020DDL建表语句创建视图DML插入操作查询操作日期操作DDL建表语句create table temp.table_name(sold_time_partition_key Date, ---默认分区键字段id Int32, ----integer类型在CK中是默认以Int32为主user_name String, ---character varying/char 中默认字符类型为Stringpass_word Nullable(String), ---

2020-06-05 15:11:24 683

原创 WaterDrop--如何快速地将Kafka中的数据导入GreenPlum6关系型数据中

将Kafka中的数据导入GreenPlum6前言准备环境GP6建表Shell 开发WaterHouse.conf脚本部署、上线验证前言最近刚接到一个新的需求,将实时数据做成一个报表,报表好做是好做,但是数据源是如何获取的呢,目前我们的实时数据只有ClickHouse上进行存放的,但是传统型Cognos BI报表不支持CK数据的接入,故只能通过关系型数据库进行存储实时数据,我们目前的实时数据是通过Flink进行汇总计算的,然后通过kafka进行消息分发,故我们现在适应WaterHouse来接入kafka数

2020-05-21 21:10:01 790

原创 WaterDrop--如何快速地将MongoDB中的数据导入Hive

如何快速地将MongoDB中的数据导入Hive准备环境编写脚本-WaterDrop.confhdfs ==> hive调用shell并加之Azkaban进行任务调度最近我们有些MongoDB业务库的数据需要导入至Hive中,以前我是用的Kettle进行离线抽取GreenPlum,但是现在我们的数仓整体迁至Hive+Impala,导致使用kettle无法使用,使用sparkSQL又有点麻烦,需要部署jar之类的,由于我们之前就使用过WaterDrop工具将GP[GreenPlum4]中的数据导入CK[

2020-05-21 10:17:06 1287

原创 GreenPlum6使用PXF进行连接HDFS、HIVE

最近我们正在测试GP6.7的性能,尝试着使用PXF连接HDFS进行外部表获取,提供一个GreenPlum中文社区PXF中文文档环境配置配置环境:GreenPlum 6.7 ; PXF 5.11 ; CDH 6.1 (hadoop 3.*,hive 2.*)初始环境由于我们拿到的手的服务上是已经安装好的GreenPlum6.7和PXF5.11,所以我们只需要配置PXF的环境即可准备文件我们需要拷贝修改文件...

2020-05-20 18:08:53 2114

原创 Spark获取CSV文件导入ClickHouse

由于我们在工作中可能会用到导数需求,所以我就用sparkSQL进行开发了一个开发工具环境配置本地开发环境:WIN10、IDEA2019.3、Scala2.11.12、Spark2.4.0POM文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0...

2020-04-16 13:57:57 848

原创 SpringBoot 在main或者普通类中条用service接口

Springoot 在main或者普通类中条用service接口,对MyBatis进行测试首先创建一个工具类 SpringUtilspackage com.leyou.Util;import org.springframework.beans.BeansException;import org.springframework.context.ApplicationContext;imp...

2020-04-09 14:40:57 793

原创 Solr7.7.2安装

Solr7.7.2安装一、环境准备二、安装三、启动Solr四、配置Solr(待完善)一、环境准备linux环境:Centor7jdk环境 :1.8二、安装下载安装包打开官网 https://www.apache.org/dyn/closer.lua/lucene/solr/7.7.2/solr-7.7.2.tgz然后使用wget命令进行下载声明:下载目录:/opt/dat...

2020-04-08 13:26:51 277

原创 GreenPlum创建外部表

GreenPlum创建外部表及hive外部表工具创建外部表存储路径建表语句感谢指出问题,且会加以改正工具 OLAP:Greenplum6 客户端连接器:PgAdmin4创建外部表存储路径创建外部表时需要先到GreenPlum6的master节点下安装目录下创建一个csv文件,该文件为数据存储及外部表映射文件 #由于我们的gp6是安装在/opt/data目录下的,所以我们在data目...

2020-04-06 11:15:36 1447 2

原创 在某段时间内找出连续15天消费或登录的会员

在某段时间内找出连续15天消费或登录的会员使用标准SQL进行开发获取到人到天的数据明细并进行rank() over()进行排序获取时间明细并进行rank() over()进行排序生成结果数据使用标准SQL进行开发 数据库:postgresql获取到人到天的数据明细并进行rank() over()进行排序销售明细表 select * from ly_temp.temp_wang_2020...

2020-03-31 14:44:44 435

原创 redis单机单节点安装及单机多节点安装教程

Linux系统Redis单机单节点及单机多节点安装教程安装步骤单机单节点安装安装单节点(将下载的tar包保存至/opt/software/文件下)单机多节点安装教程功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTe...

2020-03-16 14:53:30 322

Vertamedia-clickhouse-grafana-1.9.5-0-g50d46ef.zip

Vertamedia-clickhouse-grafana-1.9.5-0-g50d46ef.zip

2020-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除