时差N小时-CSDN博客

原创通过改JDK默认编码解决DBeaver乱码问题

在DBeaver中添加汉字注释后，选择另存为后，注释的汉字出现乱码问题？第一种：在导入脚本之后选择SQL Editor -> Execute SQL Editor如果不起作用则第二种：可查看DBeaver默认的文件格式，一般是ANSI，更改之后就是UTF-8格式。左侧栏Scripts -> Properties -> Text file encoding -> Inherited from container(UTF-8) / Other解决方法：在环境变量中添加JAVA_

2021-03-28 23:38:07 2460

原创 hive中文注释乱码解决方案

在Hive客户端中创建的表包含中文注释乱码解决方案一、因为Hive元数据存储在Mysql数据库中，MySQL库执行以下SQL：（desc表名可看见不能正常显示中文，所以需要执行一次下列语句后再创建各张表）#修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;#修改表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE v

2021-03-28 23:08:11 380

原创离线指标分析

一、DWS层主要分为5个主题设备用户商品活动地区二、ADS层我主要负责设备商品活动（营销）主题的指标1、设备主题① 活跃设备数，包括日活、周活、月活– 1. 什么是活跃设备a、打开应用的用户即为活跃用户，不考虑用户的使用情况。b、每天一台设备打开多次会被计为一个活跃用户– 2. 需求：‘日活’：当日活跃的设备数‘周活’：当周活跃的设备数，在这一周内，多次活跃也计算为1次‘月活’：当月活跃的设备数，在这一月内，多次活跃也计算为1次思路：从dws层设备主题宽表获取数

2021-03-16 22:58:12 1076 1

原创离线数仓1

一、关系建模与维度建模首先，理清数据处理方式。当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。① OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。② OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。关系模型主要应用于OLTP系统中，比较的松散、零碎，物理表数量多

2021-03-16 21:08:57 917

原创 Hive自定义函数

一、Hive自定义函数① UDF(User-Defined-Function) 一进一出② UDAF(User- Defined Aggregation Funcation) 聚和函数，多进一出，如count/max/min③ UDTF(User-Defined Table-Generating Functions) 一进多出，如lateral view explode()使用方式：在HIVE会话中add 自定义函数的jar文件，然后创建function继而使用函数① 打包上传：把程序打成ja

2021-03-16 15:42:53 127

原创 Flume采集日志数据

一、为什么选用Flume？Flume vs Logstash vs Filebeat当时选择数据采集工具时，我们主要参考了市面上热度比较高的Flume和Logstash还有Filebeat，据目前所知，美团和苏宁用的是Flume。Flume当初的设计初衷就是将数据传送到HDFS中，它更加地注重数据的传输，而Logstash是ELK组件（Elastic Search、Logstash、Kibana）中的一员，侧重于数据预处理。Flume比Logstash多了一个可靠性策略，在Flume中传输的数据会持

2021-03-16 14:08:46 2355 2

原创 Flume-Kafka-Flume采集

一、第一层Flume的ETL拦截器：作用：进行初步数据清洗，去除不符合Json格式的数据。1、pom.xml文件导入两个依赖和两个插件<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.atguigu</groupId><artifactId>data0821</artifactId><version>1.0-SNAPSHOT</version>

2021-03-13 10:30:24 1196 1

elsechan的博客