weixin_39210914-CSDN博客

原创 clickhouse踩坑:row_number()函数结果和预期不一致

row_number()刚用上，就测试发现不对了，后来到官网仔细一看，果然，数据还是在数据块上排序，不是在所有数据中排序的。只需要使用group by 函数等，将数据从各个数据块中提取到内存中即可。

2023-01-03 15:49:38 1243

原创 clickhouse踩坑:neighbor函数结果和预期不一致

clickhouse中neighbor函数踩坑

2023-01-03 15:18:17 1912

原创 airflow2.1.2离线安装部署--anaconda3+postgresql

airflow2.1.2离线安装部署--anaconda3+postgresql 基本思路安装环境安装步骤1、拷贝压缩【**内网**】site-packgeage目录2、备份【**外网**】site-packages目录，并将【内网】拷贝过来的site-package目录进行替换3、在外网安装airflow，使用国内源4、将【外网】的site-packages目录打包替换【内网】对应目录，并将【外网】airflow启动脚本拷贝到【内网】5、配置postgre数据库启动Airflow新增用户名和密码基本思

2021-07-16 15:03:09 2068

原创 clickhouse group by 优化神器

clickhouse group by 优化神器clickhouse中有时候会有对大量分散数据进行group by后再筛选的需求比如3亿条数据按照字段A进行group by,还有2亿条，再根据其他字段的count结果进行筛选：select A，count(*) from table t1group by A having count(*)>8因为字段A的分散性，group by 会非常耗费内存且慢优化方法！！！将表t1的分片字段改为A，那么表中的数据就会自动按照A值的不同分布在不同

2021-06-21 18:41:47 5506 3

原创 kafka 学习 1 kafka 安装和基本操作

kafka学习 11、kafka的基本介绍2、kafka的架构介绍3、kafka集群环境搭建4、Kafka集群操作1、创建topic2、查看主题命令3、生产者生产数据4、消费者消费数据5、运行describe topics命令6、增加topic分区数7、增加配置8、删除配置9、删除topic1、kafka的基本介绍kafka是最初由linkedin公司开发的，使用scala语言编写，kafka是一个分布式，分区的，多副本的，多订阅者的日志系统（分布式MQ系统），可以用于搜索日志，监控日志，访问日志等

2021-03-01 19:47:24 327

原创 clickhouse 由于IO过高导致元数据同步失败

就目前使用情况来看，clickhouse的瓶颈可能在高IO，IO过高时可能出现两个问题1、元数据同步异常，某些已经删掉的表，元数据中还是保存了元数据信息，新建之后表也不能使用，报：xxx.tableA(adadx-qdewf-qdasd-acsad) desn`t exist。目前没有找到元数据修复的办法，只能改表名。。。。2、执行SQL失败，报错：connection loss这是由于IO过高导致的zookeeper同步数据太忙，无法向外提供其他服务，只要IO不是一直100%，可以等待一段时间再执

2021-02-08 10:44:44 1396

原创 clickhouse踩坑: 分布表插入数据异步

向clickhouse分布表A插入数据后，执行select * from A，发现数据数量不足，但是过了几秒后，在执行select * from A，数量又是正确的了。经过研究发现，对于clickhouse，不仅delete和update操作是异步，默认情况下分布表的insert也是异步的（本地表的insert是同步的）。通过设置参数可以让分布表的入库是同步的：insert_distributed_sync=true...

2021-02-08 10:26:15 2717 3

原创 Hadoop离线 day20 数据仓库设计、ETL和统计分析

数据仓库设计、ETL和统计分析二、模块开发----数据仓库设计1．维度建模基本概念2．维度建模三种模式2.1．星型模式2.2．雪花模式2.3．星座模式3.2．维度表设计 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210109202857928.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3d

2021-01-09 20:52:29 248

原创 Hadoop离线 day18 sqoop数据迁移和java执行shell命令

sqoop数据迁移和java执行shell命令3. sqoop数据迁移3.1、概述3.2、sqoop1与sqoop2架构对比3.3、工作机制3.4 、sqoop实战及原理3.4.1 sqoop安装3.5、 Sqoop的数据导入3.6、 Sqoop的数据导出4、java执行shell命令3. sqoop数据迁移3.1、概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存

2021-01-05 00:08:34 305

原创 Hadoop离线 day17 日志采集框架Flume和工作流调度器azkaban

日志采集框架Flume 和工作流调度器azkaban1.1 Flume介绍1.1.1 概述1.1.2 运行机制1.1.3 Flume采集系统结构图1.2 Flume实战案例1.2.1 Flume的安装部署第一步：下载解压修改配置文件第二步：开发配置文件第三步：启动配置文件第四步：安装telent准备测试1.2.2 采集案例1、采集目录到HDFS2、采集文件到HDFS3、两个agent级联1.3 更多source和sink组件1.4 高可用Flum-NG配置案例failover1.4.1、角色分配1.4.

2021-01-03 17:52:27 395 2

原创 Hadoop离线 day16 Hive基本操作

Hadoop离线 day16 Hive基本操作九、调优9.1 Fetch抓取（Hive可以避免进行MapReduce）9.2 本地模式9.2 表的优化9.2.1 Join9.2.2 MapJoin9.2.3 Group By9.2.4 Count(distinct)9.2.5 笛卡尔积9.2.6 使用分区剪裁、列剪裁9.2.7 动态分区调整9.2.8 分桶9.3 数据倾斜9.3.1 Map数9.3.2 小文件进行合并9.3.3 如何适当的增加map数9.3.4 reduce数9.4 使用EXPLAIN（执行

2020-12-29 21:32:36 176

原创 Hadoop离线 day15 Hive基本操作

Hive基本操作一、Hive基本操作1、创建数据库与创建数据库表1.1 创建数据库操作创建数据库创建数据库并指定hdfs存储位置修改数据库查看数据库详细信息删除数据库1.2 创建数据库表操作管理表hive建表初体验Hive建表时候的字段类型创建表并指定字段之间的分隔符根据查询结果创建表根据已经存在的表结构创建表查询表的类型外部表：外部表说明：管理表和外部表的使用场景：操作案例分区表：分桶表修改表表重命名增加/修改列信息删除表hive表中加载数据通过查询插入数据多插入模式查询语句中创建表并加载数据（as se

2020-12-27 01:31:41 1058

原创 Hadoop离线 day14 数据仓库和hive的基本概念

数据仓库的基本概念一、数据仓库1．数据仓库的基本概念2．数据仓库的主要特征2.1．面向主题2.2．集成性2.3．非易失性（不可更新性）2.4．时变性3．数据仓库与数据库区别4、数据仓库分层架构5、数据仓库元数据管理Hive基本概念2.1、Hive简介2.2、 Hive架构2.3、Hive与Hadoop的关系2.4、Hive与传统数据库对比2.5、Hive的数据存储2.6、HIVE的安装部署2.6.1 安装修改hive的配置文件修改hive-env.sh修改hive-site.xml一、数据仓

2020-12-22 20:31:00 701 2

原创 Hadoop 离线 day13 自定义GroupingComparator及Yarn资源调度

自定义GroupingComparator3.1 需求3.2 分析GroupingComparator是mapreduce当中reduce端的一个功能组件，主要的作用是决定哪些数据作为一组，调用一次reduce的逻辑，默认是每个不同的key，作为多个不同的组，每个组调用一次reduce逻辑，我们可以自定义GroupingComparator实现不同的key作为同一个组，调用一次reduce逻辑3.1 需求有如下订单数据订单id商品id成交金额–Order_0000001–Pd

2020-12-19 15:33:22 440 1

原创 hadoop 离线 day12 自定义inputFormat 和 outputFormat

自定义inputFormat1 自定义inputFormat1.1 需求1.2 分析1.3 实现2 自定义outputFormat2.1 需求2.2 分析2.3 实现1 自定义inputFormat1.1 需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案1.2 分析小文件的优化无非以下几种方式：1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS2、在业务处理之前，在HDFS上使用mapreduc

2020-12-17 23:51:47 124

原创 hadoop 离线 day11 mapTask的运行机制和并行度

mapTask的运行机制和并行度1、mapTask的运行机制2、reduceTask的运行机制3、MapReduceshuffle过程4、shuffle阶段数据的压缩机制4.1、hadoop当中支持的压缩算法4.2 使用hadoop的snappy压缩来对我们的数据进行压缩1、mapTask的运行机制整个Map阶段流程大体如上图所示。简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map（用户自己实现的）进行处理，数据被map处理结束之后交给Ou

2020-12-13 23:43:56 205

原创 hadoop离线 day10 MapReduce中的分区和排序

hadoop离线 MapReduce中的分区和排序1、MapReduce的分区与reduceTask的数量第一步：定义我们的mapper第二步：定义我们的reducer逻辑第三步：自定义partitioner第四步：程序main函数入口2、MapReduce排序以及序列化1、MapReduce的分区与reduceTask的数量在MapReduce中，通过我们指定分区，会将同一个分区的数据发送到同一个reduce当中进行处理，例如我们为了数据的统计，我们可以把一批类似的数据发送到同一个reduce当中去

2020-12-13 01:16:55 357

原创 hadoop离线day09 mapreduce入门和wordcount示例

mapreduce入门和wordcount示例1、mapreduce入门2、mapreduce编程可控的八个步骤（天龙八部）wordcount示例1、mapreduce入门分布式文件计算系统，主要用于计算我们的一些数据MapReduce的核心思想：分而治之最主要有两个阶段：map阶段：负责任务拆分，reduce阶段：负责结果聚合2、mapreduce编程可控的八个步骤（天龙八部）map阶段两个步骤1、第一步：读取文件，解析成key,value对，这里是我们的K1 V12、第二步：接

2020-12-09 23:32:19 117

原创 hadoop离线 day09 HDFS权限问题以及伪造用户

HDFS权限问题以及伪造用户1、停止HDFS集群cd /export/servers/hadoop-2.6.0-cdh5.14.0/sbin/stop-dfs.sh2、修改hdfs-site.xml文件cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim hdfs-site.xml3、复制到其他机器上scp hdfs-site.xml node02:$pwdscp hdfs-site.xml node03:$pwd4、伪造

2020-12-08 23:52:21 163

原创 hadoop离线 day08 分布式文件系统的介绍的javaAPI操作

分布式文件系统详细介绍**文件系统**：是一个顶层的抽象，具体的抽象，需要取决于你自己的获取的实例，我们可以通过文件系统获取本地文件系统，也可以获取分布式文件系统。FTP:// ftp文件系统，可以做文件的上传和下载webHdfs,浏览器操作文件系统，可以允许我们通过浏览器上传、下载、修改HDFS上面的文件hdfs:分布式文件系统，最重要的一个local：本地文件系统HDFS分布式文件系统设计的目标：1、硬件错误是常态，特别是硬盘的损坏是常态2、数据流访问，所有的数据访问都是大量的

2020-12-07 00:23:53 205

原创 hadoop 离线 day07 HDFS文件系统的基本特性和操作

HDFS文件系统的基本特性HDFS的特性：master/slaver架构：主从架构namenode：主节点，主要用于存储元数据datanode：用于存储数据，就是出磁盘的分块存储：把一个大的文件化成一个个小的block块，在hadoop2中，一个block块的大小默认是128M。副本机制：一个1280M的文件需要拆成10个block块，每个block块都有三个副本。一次写入，多次读取：适用于频繁读取的情况，不适用与频繁写入的情况，改变文件，涉及改元数据的改变。HDFS的命令行使用ls

2020-12-05 17:50:52 195 1

原创 hadoop离线 day07 cdh版本hadoop的源码重新编译和安装启动

hadoop离线 day07 cdh版本hadoop的源码重新编译和安装启动1、cdh版本的hadoop的源码重新编译2、cdh版本hadoop安装和配置2.1 安装zookeeper2.2 安装cdh 版本的hadoop环境搭建1、cdh版本的hadoop的源码重新编译https://www.cloudera.com/http://archive.cloudera.com/cdh5/cdh/5/cdh版本的hadoop的编译：关闭防火墙关闭安装jdk1.7安装maven指定mvnrep

2020-12-03 00:15:46 301

原创 hadoop离线 day06 Hadoop安装方法：单机版、伪分布式、完全分布式

Hadoop安装方法：单机版、伪分布式、完全分布式Apache hadoop三种架构的介绍（standAlone，伪分布式，分布式环境介绍以及安装）一）standAlone 单机版1、下载安装包2、修改配置文件1）修改core-site.xml:2）修改hdfs-site.xml3）修改hadoop-env.sh4）修改maprd-site.xml5）修改yarn-site.xml6）修改slaves3、启动集群二）伪分布式三）完全分布式Apache hadoop三种架构的介绍（standAlone

2020-12-02 15:35:48 392

原创 hadoop离线 day05 发展史和基本架构

hadoop离线 day05 发展史和集群安装hadoop 1.X的架构HDFS文件系统：MapReduce分布式文件计算系统hadoop 2.X的架构hadoop 1.X的架构HDFS文件系统：典型的主从架构NameNode：集群中的主节点，主要用于管理集群中的各种数据。secondarynode:主要用于hadoop当中元数据信息的辅助管理。DataNode：集群中的从节点，主要用于存储集群中的各种数据。MapReduce分布式文件计算系统jobTracker：主节点，接收用户请

2020-11-25 23:36:28 265

原创 hadoop 离线 day03 zookeeper的安装和使用

zookeeper 安装1、下载安装包推荐到到中科大的镜像网站下载，速度会比较快：http://mirrors.hust.edu.cn/apache/zookeeper/2、修改配置文件下载后复制到集群的node01目录下，解压到指定目录tar -zxvf apache-zookeeper-3.5.8.tar.gz /export/servers/zookeeper-3.5.8/进入解压后的目录cd /export/servers/zookeeper-3.5.8/备份conf目录下的

2020-11-25 00:16:54 364

原创 hadoop离线 day02 shell编程与三台虚拟机互信和zookeeper

hadoop离线 day02 shell编程一、 shell脚本1.shell脚本执行的两种方式2. shell变量3. shell 运算符4. 流程控制5. 函数的定义二、大数据集群环境准备1. 关闭防火墙2. 修改主机名3. 主机名与IP地址映射3. 三台机器免密登录4. 三台机器的时钟同步5. JDK安装三、zookeeper基本概念一、 shell脚本mkdir -p /export/software 存放所有软件压缩包mkdir -p /export/servers 压缩包解压之后的

2020-11-22 23:48:05 246

原创 hadoop离线 day01 三台虚拟机的安装并联网与Linux基础

这里写目录标题Windows网络配置1.查看网段2、设置静态IP地址VMware 虚拟机安装和配置1. 虚拟机安装2. 虚拟机配置Linux基础命令1、grep2、find3. locateWindows网络配置1.查看网段cmd 打开命令窗口，输入ifconfig红色方框内即可看到自己网段,记住前面三个字段，比如上图，192.168.116.10，后面设置静态ip时只需要改最后10这个字段即可2、设置静态IP地址控制面板网络和internet网络和共享中心更改适配器设置VMwar

2020-11-21 22:21:58 491

原创 maven 学习day01 maven在ide中的使用

maven 学习day01 maven在ide中的使用1.在idea中设置maven ，让idea和maven结合使用。2.使用模版创建项目3.依赖范围，使用scope表示的。4 maven常用操作1.在idea中设置maven ，让idea和maven结合使用。idea中内置了maven ，一般不使用内置的，因为用内置修改maven的设置不方便。使用自己安装的maven，需要覆盖idea中的默认的设置。让idea指定maven安装位置等信息配置的入口①：配置当前工程的设置， file

2020-11-20 00:33:09 323

原创 maven 学习day01 maven安装部署和初步使用

maven 学习day01 maven安装部署和初步使用1.Maven 安装和部署2. pom文件3. Maven IntelliJ1.Maven 安装和部署Maven 下载Maven 下载地址：http://maven.apache.org/download.cgi设置 Maven 环境变量添加环境变量 MAVEN_HOME：2. pom文件3. Maven IntelliJ打开 IntelliJ IDEA。选择 File Menu > New Project 选项

2020-11-19 00:22:54 89

原创 java学习笔记 day14 字节流、字符流

java学习笔记 day14 字节流、字符流1. 缓冲字节流2.转换流-中文处理2.1 编码表概述和常见编码表2.2 转换流3 便捷类4. 字符缓冲区流1. 缓冲字节流字符缓冲区流：BufferedWriter：将文本写入字符输出流，缓冲各个字符，从而提供单个字符、数组和字符串的高效写入。可以指定缓冲区的大小，或者接受默认的大小。在大多数情况下，默认值就足够大了。构造方法：BufferedWriter(Writer out)BufferedReader：从字符输入流中读取文本，

2020-11-15 22:51:45 126

原创 java学习笔记day13 异常处理、File类以及IO流

这里写目录标题1. 异常1.1 异常的体系：1.2 异常的默认处理方式1.3 try... catch..2 File类3. IO流3.1 字节流写数据3.2 字节流读数据1. 异常异常：就是程序出现了不正常的情况。Exception分为运行期和编译期：运行期的异常：在编译期是不处理的，在程序运行时候出现了问题，需要我们回来修改代码。编译期的异常：在编译期就必须处理，否则程序不能通过编译，就更不能正常的执行了。1.1 异常的体系：ThrowableError:严重问题，不需要处理Excep

2020-11-15 00:42:19 267

原创 java 学习笔记 day12 set\map集合

java 学习笔记 day12 set\map集合1.set集合1.1 保证唯一性的原理2.Map集合3. 练习：HashMap嵌套ArrayList1.set集合1.1 保证唯一性的原理HashSet保证元素唯一性的原理?通过查看add方法的源码，我们知道了添加功能的执行过程中，是进行了数据的判断的。这个判断的流程是：首先比较对象的哈希值是否相同，这个哈希值是根据对象的hashCode()计算出来的。如果哈希值不同，就直接添加到集合中如果哈希值相同，继续执行equals()进行

2020-11-13 23:18:30 219

原创 java 学习笔记 day11集合类和基本数据类型

java 学习笔记集合类和基本数据类型1. 集合类1.1 ArrayList1.2 集合遍历1.3.list 集合1.4 增强for2 基本数据结构2.1堆和栈2.2数组和链表1. 集合类1.1 ArrayList添加元素：add(E e )，永远返回true删除元素：remove()，删除成功返回true，反之false清空元素：clear()判断集合是否为空，isempty()，求集合长度：size()import java.util.ArrayList;import java.

2020-11-13 01:06:46 96

原创 java 学习笔记 day10 常用类 array,integer,Date,SimpleDataFormate

java 学习笔记 day10 常用类1. array类2. 基本数据类型的包装类3. integer 类4. 自动装箱与自动拆箱5. Date类6.SimpleDataFormate1. array类toString()：数组转字符串sort()：数组排序public class ArraysDemo { public static void main(String[] args) { //定义一个数组 int[] arr = {24,69,80,57,

2020-11-11 23:58:37 180 1

原创 shell脚本打印 *号被转义

近日学习用shell脚本开发数据库相关操作脚本时，发现一个问题，a='select * from table1'echo $a运行结果居然是：select test.log test.sh from table1这里的test.log 和test.sh 是当前目录下的所有文件。。。。经过查询发现shell脚本默认把 ‘*’ 转义成当前目录下的文件了。。。要是想跳过这个操作，只需要在引用时把参数用双引号引起来既可a='select * from table1'echo "$a"成功

2020-11-11 19:35:15 1022 1

原创 clickhouse 踩坑：报错 timeout distributed_ddl_task_timeout

今天使用clickhouse执行一个SQL语句时报错：Code: 159. DB::Exception: Received from localhost:9000. DB::Exception: Watching task /clickhouse/task_queue/ddl/query-0000565925 is executing longer than distributed_ddl_task_timeout (=180) seconds. There are 1 unfinished hosts

2020-11-11 19:01:08 5095

空空如也

空空如也