自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 通过改JDK默认编码解决DBeaver乱码问题

在DBeaver中添加汉字注释后,选择另存为后,注释的汉字出现乱码问题?第一种:在导入脚本之后选择SQL Editor -> Execute SQL Editor如果不起作用则第二种:可查看DBeaver默认的文件格式,一般是ANSI,更改之后就是UTF-8格式。左侧栏Scripts -> Properties -> Text file encoding -> Inherited from container(UTF-8) / Other解决方法:在环境变量中添加JAVA_

2021-03-28 23:38:07 2460

原创 hive中文注释乱码解决方案

在Hive客户端中创建的表包含中文注释乱码解决方案一、因为Hive元数据存储在Mysql数据库中,MySQL库执行以下SQL:(desc表名可看见不能正常显示中文,所以需要执行一次下列语句后再创建各张表)#修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;#修改表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE v

2021-03-28 23:08:11 380

原创 离线指标分析

一、DWS层主要分为5个主题设备 用户 商品 活动 地区二、ADS层我主要负责 设备 商品 活动(营销)主题的指标1、设备主题① 活跃设备数,包括日活、周活、月活– 1. 什么是活跃设备a、打开应用的用户即为活跃用户,不考虑用户的使用情况。b、每天一台设备打开多次会被计为一个活跃用户– 2. 需求:‘日活’:当日活跃的设备数‘周活’:当周活跃的设备数,在这一周内,多次活跃也计算为1次‘月活’:当月活跃的设备数,在这一月内,多次活跃也计算为1次思路:从dws层设备主题宽表获取数

2021-03-16 22:58:12 1076 1

原创 离线数仓1

一、关系建模与维度建模首先,理清数据处理方式。当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。① OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。② OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。关系模型主要应用于OLTP系统中,比较的松散、零碎,物理表数量多

2021-03-16 21:08:57 917

原创 Hive自定义函数

一、Hive自定义函数① UDF(User-Defined-Function) 一进一出② UDAF(User- Defined Aggregation Funcation) 聚和函数,多进一出,如count/max/min③ UDTF(User-Defined Table-Generating Functions) 一进多出,如lateral view explode()使用方式 :在HIVE会话中add 自定义函数的jar文件,然后创建function继而使用函数① 打包上传:把程序打成ja

2021-03-16 15:42:53 127

原创 Flume采集日志数据

一、为什么选用Flume?Flume vs Logstash vs Filebeat当时选择数据采集工具时,我们主要参考了市面上热度比较高的Flume和Logstash还有Filebeat,据目前所知,美团和苏宁用的是Flume。Flume当初的设计初衷就是将数据传送到HDFS中,它更加地注重数据的传输,而Logstash是ELK组件(Elastic Search、Logstash、Kibana)中的一员,侧重于数据预处理。Flume比Logstash多了一个可靠性策略,在Flume中传输的数据会持

2021-03-16 14:08:46 2355 2

原创 Flume-Kafka-Flume采集

一、第一层Flume的ETL拦截器:作用:进行初步数据清洗,去除不符合Json格式的数据。1、pom.xml文件导入两个依赖和两个插件<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.atguigu</groupId><artifactId>data0821</artifactId><version>1.0-SNAPSHOT</version>

2021-03-13 10:30:24 1196 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除