不同数据库的时间、换行格式问题 phoenix语法: 时间:TO_CHAR(CONVERT_TZ(create_time,'UTC','Asia/Shanghai'),'yyyy-MM-dd HH:mm:ss') as etl_time 换行:regexp_replace(sku_brand_name,'','') assku_brand_name sybase语法: 时间:convert(CHAR(8), current_time(), 108) as etl_time 换行:str_repl..
后台自动脚本安装 安装:brew/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"安装:lrzszbrew install lrzsz安装:wget brew install wget
Hive数仓架构分层 Hive数仓架构分层数据层 说明 ODS(数据运营层) 结构和原系统结构一致,原封不动的接入原始数据 DWD(数据明细层) 和ODS数据粒度一致,对数据惊醒清洗,新增标准编码进行一定维度的退化,减少下游事实表和维表的关联 DW(数据聚合层) DWA(轻度汇总)轻度聚合中间表提升模型的复用性 DWB(高度汇总)基于DWD、DWA进行高度聚合,存放宽表模型,用于提供后续的业务查询,OLAP分析 ADS(数据应用层) 提供给数据产品和数据分
ClickHouse表常用引擎 TinyLog 是最简单的表轻量引擎(最多约100万行), 一写多读的应用场景。同时读写会损害数据 TinyLog 表经常作为中间表,用于数据的微批量处理. 语法中无需携带任何参数 它将数据保存到磁盘. 每个字段都以单独压缩文件形式保存. 当写入数据时, 数据追加到文件的末尾创建表的样例: CREATE TABLE [ IF NOT EXISTS ] [ ...
8种数据类型之间的转换 package com.itheima;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;public class 各种转换 { public static void main(String[] args...
shell脚本定时采集日志数据到hdfs_模板 shell的单使用语法---待续#!/bin/bash#set java envexport JAVA_HOME=/HOME/hadoop/app/jdk1.8.0export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/b...
Spark RDD --深度解析 概要为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了 RDDs 的概念。当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是 RDDs 的提出的动机。如果能将数据保存在内存中,将会使的上面两种场景的性能提高一个数量级。为了能达到高效的容错,RDDs 提供了一种受限制的共享内存的方式,这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状...
Redis的AOF与RDB持久化 Redis提供了RDB持久化和AOF持久化这两种持久化功能,用于将存储在内存里面的数据库数据以文件形式保存到硬盘中,以免数据因为服务区的关闭而丢失。RDB文件是一个二进制文件,他保存了Redis服务器在创建RDB文件是,所有数据库的数据。三种最常见的创RDB文件的方法:1;执行SAVE命令;2:执行BGSAVE命令3:使用save选项设置保存条件,让服务器自动执行BGSAVE。...
linux系统离线安装mysql数据库 操作步骤参考如下:以root用户登录待安装的服务器,检查系统中是否安装过MySQL。 rpm -qa|grep -i mysql如果未安装过MySQL,系统无屏显信息。如果已安装过MySQL,系统显示已安装的MySQL安装包信息:mysql-community-libs-5.7.16-1.sles11libmysqlclient_r15-5.0.67-13.20.1my...
kerberos认证管理 Kerberos: The Network Authentication Protocol1 引言0编写目的针对DataIDE和C70集群中均采用kerberos进行通讯安全认证,为方便日后对kerberos的学习,形成文档。1kerberos简介Kerberos简单来说就是一个用于安全认证第三方协议,它采用了传统的共享密钥的方式,实现了在网络环境不一定保证安全的环境下,cli...
elasticSearch的npm install 报错 出错代码:npm ERR! Unexpected end of input at 1:252542npm ERR! },"1.7.0":{"name":"karma","version":"1.7.0","dependencies":{"bluebirdnpm ERR!
hadoop的shuffle过程 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...
storm的ack消息不丢失机制 1:ack是什么ack 机制是storm整个技术体系中非常闪亮的一个创新点。通过Ack机制,spout发送出去的每一条消息,都可以确定是被成功处理或失败处理, 从而可以让开发者采取动作。比如在Meta中,成功被处理,即可更新偏移量,当失败时,重复发送数据。因此,通过Ack机制,很容易做到保证所有数据均被处理,一条都不漏。另外需要注意的,当spout触发fail动作时,不会自动重...
hadoop的架构模型(1.x,2.x的各种架构模型介绍) 1.x的版本架构模型介绍文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据(后文解释)信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:JobTracker:接收用户的计算请求任务,并分配任务给从节点TaskTrack...
Kafka的集群安装部署 架构图1)Producer :消息生产者,就是向kafka broker发消息的客户端。2)Consumer :消息消费者,向kafka broker取消息的客户端3)Topic :可以理解为一个队列。4) Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。一个top...
消息对列的作用 1)解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3)扩展性:因为消息队列解耦了你的处...
hadoop搭建的步骤 hadoop搭建的步骤1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml8 配置hadoop环境变量9 格式化 hado...
CDH 伪分布式环境搭建 安装环境服务部署规划 服务器IP 192.168.1.100 192.168.1.110 192.168.1.120 HDFS NameNode Secondary NameNode ...