自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

kevin

从csdn 获取知识,再把知识贡献给csdn。

  • 博客(127)
  • 资源 (6)
  • 收藏
  • 关注

原创 oracle 数据库与服务、实例与SID、表空间、用户与表模式

就是一个数据库的标识,在安装时就要想好,以后一般不修改,修改起来也麻烦,因为数据库一旦安装,数据库名就写进了控制文件,数据库表,很多地方都会用到这个数据库名。数据库实例名是用于和操作系统进行联系的标识,就是说数据库和操作系统之间的交互用的是数据库实例名。在一般情况下,数据库名和实例名是一对一的关系,但如果在oracle并行服务器架构(即oracle实时应用集群)中,数据库名和实例名是一对多的关系。Oracle数据库是通过表空间来存储物理表的,一个数据库实例可以有N个表空间,一个表空间下可以有N张表。

2024-05-11 12:14:51 573

原创 数据治理概念

数据治理

2022-07-31 23:06:18 7

原创 spark 面试题

1.Map和MapPartition的区别,foreach和foreachPartition的区别前者对应的函数一次只计算1条数据,后者一次计算一个分区的数据使用场景:前者适于内存有限、分区数据量又特别大的环境。后者适用内存足够,分区数据量可接受的环境。优先选择后者,批处理效率更高。MapPartition是transformation算子,懒加载,有返回值,foreachPartition是action算子无返回值一般用MapPartition做转换,用foreachParti

2022-04-12 16:59:29 4

原创 sparkStreaming demo

package com.testimport org.apache.spark.streaming.{Duration, Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * @author [email protected] * @create 2022-04-12 15:57 * @description * */object SparkStreamingDe.

2022-04-12 16:58:19 364

原创 win10 go环境配置

1. 下载&安装 SDKhttps://golang.google.cn/dl/2.配置GOROOT(bin目录)3.配置GOPATH (工作目录)4.验证5.idea安装插件6.idea测试

2022-04-11 17:37:15 898

原创 hive 动态分区实战

1.建表CREATE TABLE `dws.dws_transaction_header_np`( `oneid` string COMMENT '用户唯一id', `transaction_header_id` string COMMENT '交易订单号(包括下单和退款的订单号)', `transaction_date` date COMMENT '交易日期', `cdp_data_source` string COMMENT 'cdp外部数据来源', `create_time`

2022-04-07 17:44:19 2133 1

原创 sqlserver获取上上月指定日期、,上上月最后一天,上月第一天,上月最后一天

SELECT CONVERT(varchar(10), CONVERT(varchar(8),dateadd(month,-2,getdate()),23)+'21' , 120)+' 00:00:00',CONVERT(varchar(10),dateadd(dd,-day(dateadd(month,2,getdate())),dateadd(month,-1,getdate())), 120)+' 23:59:59', CONVERT(varchar(10),dateadd(dd,-day(d..

2022-03-16 18:56:13 4498

原创 java-封装、继承、多态

一.继承中的super关键字与this关键字1.理解为:父类的2.super可以用来调用父类的属性、构造器、方法3.super的使用3.1 当子类声明了一个属性和父类相同时,如果在子类的构造器或方法中需要使用父类的那个属性,则需要用super显示调用父类属性3.2 当子类重写了父类的某方法时,如果在子类的构造器或方法中需要使用父类中的该方法,则需要用super显示调用父类方法。3.3 子类的构造器中显示调用父类中声明的指定构造器 :super(形参),且必须声明在子类构造器的首..

2022-02-17 17:09:36 203

原创 sql使用技巧3

数据库环境:mysql,hive,sqlserver1. group by 1 order by 2解析:按select 第一列 分组,第二列排序注意:1.hive不支持group by 1 这种语法,但是支持order by 1这种语法2.虽然可以取巧,但是在正式的代码开发中不推荐使用这种语法,因为可读性低,不利于代码维护。2. SELECT count(null),sum(null),count(0),sum(0),count(1),sum(1),count(2),sum

2022-02-14 15:20:07 1408

原创 hadoop 配置文件

1.[GSPAgent@azurepana01 hadoop]$ cd $HADOOP_HOME/etc/hadoop[GSPAgent@azurepana01 hadoop]$ cat core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apa

2022-02-07 12:11:52

原创 dolphinscheduler的正确打开方式

话不多说,直接上图,见图知意:

2021-12-07 10:52:24 2

原创 hive array类型字段 建表

-- test_databases.test_imp07 definitionCREATE EXTERNAL TABLE `test_databases.test_imp07`( `exps` array<struct<id:string,l:string>> COMMENT 'ceshi')ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPE...

2021-08-31 17:20:57

原创 java 读jar外部文件

public static final String DEFAULTOSSCONFIG = System.getProperty("user.home") + "/.ossutilconfig"; String ossConfig = this.writerSliceConfig.getString(Key.OSSCONFIG, DEFAULTOSSCONFIG); OssOutFileInputStreamUtil.validate(OssOutFileIn...

2021-08-29 15:09:08 1

原创 字符串加密 demo

1. AESpackage com.cdp.drs.utils;/** * Created by [email protected] */import org.apache.commons.codec.binary.Base64;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.stereotype.Service;import javax.crypto

2021-08-29 14:55:19 1

原创 yarn 介绍与spark2 提交

1.图2.资源分配1.可扩展性2.可用性3.利用率:tasktraker静态分配若干固定的map slot和reduce slot ,会出现仅有map slot可用reduce slot不可用,造成reduce等待的情况,yarn中一个节点管理器管理一个资源池,可不断回收重用。4.多租户:向除了mapreduce以外的其他分布式应用开放了h...

2021-08-25 10:31:09 126 1

原创 hive 外部表、内部表、静态分区、动态分区、临时表

内外部表区别1.内部表由hive自己管理数据(所以hive删表会删元数据和主数据),(主)数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse);外部表数据由HDFS管理(所以hive删表会删元数据,但不会删主数据),(主)数据存储位置由自己建表时指定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的数据库名/表名创建一个文件夹,并将属于这个表的数据存放在这里)。h..

2021-08-15 16:17:57 1379

原创 spark 编程demo

1. 项目结构2. pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0...

2021-08-08 18:11:18 1

原创 java jdbc 单条insert 插入批量数据

背景现在java jdbc大多数批量插入都是使用addBatch()来实现的。hive表不支持addBatch(),需要使用单条sql实现批量插入。步骤1. pom.xml <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> &l

2021-08-08 17:55:35 8

原创 datax二次开发rdbms插件 支持直接插入hive表

目录一. 背景二次开发思路二次开发步骤2.1 上传hive驱动到rdbmsReader、rdbmsWriter插件的lib目录2.2 修改plugin.json配置文件2.3 从git clone源码 并在最外层pom.xml注释掉其他组件,只保留 rdbmswriter模块2.4 原码测试能否编译打包2.5 修改源码2.5.1 新增CommonRdbmsWriterOverride.java类(替代CommonRdbmsWriter类)2.5.2 修改Rdbms..

2021-08-08 17:41:35 11

原创 idea配置 HADOOP_HOME

1.下载winutils.exehttps://github.com/vhma/winutils2.去集群环境把hadoop/3.2.1-1.2.0/package 下面的文件夹压缩,然后拿出来,解压,并配置好windows 环境变量 或者去网上下相关hadoop环境3. 解压winutils.master.zip 进入与集群环境一样的版本里面的bin目录,把里面的所有文件都拷贝一份到 第二步解压的bin目录下4.重启idea,启动spark 程序即可。...

2021-07-23 18:27:37 3

原创 java获取linux系统信息、读取linux外部配置文件

一.Java获取linux或windows系统信息(用户目录,临时目录等)//当前用户主目录String userPath = System.getProperty("user.home"); java.version Java运行时环境版本 java.vendor Java运行时环境供应商 java.vendor.url Java供应商的 URL java....

2021-07-11 19:00:47 2008

原创 hive小文件解决

一 产生原因1.1 数据增量多批次插入,每批次会产生 partitions*reducetasks 个小文件1.2 hive或spark 数据分析 reduce task个数过多。二 解决方法2.1 hadoop archivehive> set hive.archive.enabled=true;hive> set hive.archive.har.parentdir.settable=true;hive> set har.partfile.size=1099.

2021-07-08 17:08:16 254

原创 greenplum 运维监控参数配置

一 . 状态监控1.1gpstate命令 参数 作用 gpstate -b => 显示简要状态gpstate -c => 显示主镜像映射gpstart -d => 指定数据目录(默认值:$MASTER_DATA_DIRECTORY)gpstate -e => 显示具有镜像状态问题的片段gpstate -f => 显示备用主机详细信息gpstate -i => 显示GRIPLUM数据库版本gpstate -m => 显示镜像实例同.

2021-07-05 17:08:17 1069

原创 mysql模拟造日志数据

-- sakila.payment_1 definition--模拟超市交易日志drop table sakila.payment_1;CREATE TABLE sakila.`payment_1` ( `payment_id` smallint(5) unsigned NOT NULL AUTO_INCREMENT, `customer_id` varchar(255) NOT NULL, `staff_id` varchar(255) NOT NULL, `product_i.

2021-07-02 16:23:01 125

原创 flink on zepplin 在cdh的yarn上运行

1. 准备相关包 并解压和启动root@cdhslave02 flink]# pwd/root/soft/flink[root@cdhslave02 flink]# lsflink-1.10.0 flink-1.10.0-bin-scala_2.11.tgz zeppelin-0.9.0-SNAPSHOT zeppelin-0.9.0-SNAPSHOT.tar.gz[root@cdhslave02 flink]# vi zeppelin-0.9.0-SNAPSHOT/conf/zeppe

2021-05-13 14:32:33 152

原创 sql优化

一、SQL的执行顺序顺序:FROM——ON——JOIN——WHERE——GROUP BY——SUM、COUNT——HAVING——SELECT——DISTINCT——ORDER BY——LIMIT与写SQL的顺序不同,SQL的执行顺序并不是从select开始,而是从from开始1、FROM:先去获取from里面的表,拿到对应的数据,生成虚拟表1。2、ON:对虚拟表1应用ON筛选,符合条件的数据生成虚拟表2。3、JOIN:根据JOIN的类型去执行相对应的操作,获取对应的数据,生成虚拟表3。

2021-05-13 14:30:59 80

原创 2021 新玩意

1. 任务调度https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/quick-start.html2.spark3.x 性能优化3. 数据湖 hudi4.pulsar5. kylin 3.1.2

2021-05-06 21:03:50 84

原创 数据仓库与数据湖相关总结

一、数据仓库分层:DS:数据源层 (mysql,pg(增删改查日志),kafka(机器运行日志、点击日志)),同一类日志可以是多张表结构相似的表(日志表:网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)staging:数据预处理层,存储每天(批次)的增量,表结构和ods层一样ods:操作数据层,存储所有清洗(etl)后的基础数据,表结构基于DS但不完全同于DS(ods日志表 对应 DS 网页日志表,抓拍日志表,手机信号日志表,h5日志表,小程序日志表)。dd:脏数据层,..

2021-05-06 17:07:54 509

原创 连续时间段去重

--连续时间段去重,并求关联轨迹--入参表(小表)CREATE table public.test1(id int,name varchar,record_time timestamp,place_id int);--日志记录表(大表)CREATE table public.test(id int,name varchar,record_time timestamp,place_id int);INSERT INTO public.test1 (id,name,record_time,pla.

2021-04-29 16:10:34 473

原创 JAVA学习-spring pom

1.pom文件中${project.basedir}${project.basedir}的值是maven自带的,不是配置的。它默认是pom文件的上一级。2.pom文件中pakaging打包类型 <package>pom</package>默认是jar,父模块需显示指定为pom,子(部署)模块按需指定为war或jar3. modules作为父级项目,还有一个重要的属性,那就是modules,通过modules标签将项目的所有子项目引用进来,在build父级..

2021-02-20 17:39:23 348

原创 idea 连接github

idea设置1.git设置代理yuwei@cqopc-yuwei MINGW64 /d/project/flink-1.11 (master)$ git config --global http.proxy 'http://cqproxy01.unisinsight.com:8080'yuwei@cqopc-yuwei MINGW64 /d/project/flink-1.11 (master)$ git config --global https.proxy 'http://.

2020-11-07 10:51:59 5 1

原创 java 用Set对结果集按指定key去重并排序

使用场景:在数据量比较大的情况下,某些开窗函数去重会非常耗时,但是用group by+join 又去不干净,这时考虑用group by+join +java set 去重的方法思路:利用重新java类的equals和hashcode方法指定key,然后通过set去重1.测试数据2条,同一个personId 在同一时间(snap_time)有两条数据 (但是这两条数据的record_id不一样,导致原始数据库没有去到重)INSERT INTO dts_daas.res_time_space (.

2020-11-05 14:42:54 1236

原创 pgsql 使用技巧

1.CASCADE 级联删除,如果表或模式或数据库有序列、分区相关 依赖时,需要修改表或模式或数据库,则使用它DROP SCHEMA viid_facestatic CASCADE2.pgsql隐藏字段ctid,一般用于去重3. pg 表自连接使用场景3.1 有一张卡口表 求距离A卡口L米的所有卡口ID-- 查询以卡口ID为1为圆心,半径为100000米 范...

2020-09-15 17:37:06 2157

原创 flink1.10 sql 例子

ServiceKafka/* * www.unisinsight.com Inc. * Copyright (c) 2018 All Rights Reserved */package com.test.flink.service.sql;import org.apache.flink.api.common.time.Time;import org.apache.flink.streaming.api.TimeCharacteristic;import org.apache.flink

2020-08-04 14:15:32 413

原创 数据结构-双向链表、栈、队列、优先队列与堆

LinkedList :双向链表在java中的实现实现了deque、queue 接口package com;import java.util.*;public class test { public static void main(String[] args) { String numberStr = ""; // 链表 LinkedList linkedList = new LinkedList(); linke

2020-07-18 17:32:56 6 1

原创 teamviewer

tv下载:https://www.teamviewer.cn/cn/download/windows/

2020-07-04 07:05:09 143

原创 MPP update优化一

前言:对于列式存储直接update性能低下,可采用update+insert方式或者delete+insert 方式 实现更新操作例子:套牌车的一个测试例子 -- create or insert 每个车牌的最近一条记录 对应的表 29.361s create table dts_vehicle_resource.fake_plate_info_sp as SELECT a.plateno,a.platecolor,a.tollgateid,a.passtime ,ST_Geograp

2020-06-01 15:10:15 654

原创 flume+file+kafka

一.测试在某个文件里面追加数据,然后流到flume,再流到kafka1.配置flume# Please paste flume.conf here. Example:# Sources, channels, and sinks are defined per# agent name, in this case 'tier1'.tier1.sources = source1 fi...

2020-05-24 12:06:54 303

原创 spark 分区 提交 调优

觉得还行的话,点个赞哟。一spark RDD分区原则在Spark的Rdd中,Rdd默认是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。二.coalesce和repartition ...

2020-05-24 12:04:53 1593

原创 pg流复制

一.异步流复制1.创建用于流复制的角色(在主备节点)# 创建用于流复制的角色[root@cdhslave01 pgdata]# su - postgres[postgres@cdhslave01 ~]$ psqlpostgres=#create role replica login replication encrypted password 'replica';在主库2...

2020-05-24 12:04:05 345

cdh5.15离线搭建文档

cdh5.15离线搭建文档,非常详细,包括一些关键步骤的截图,不懂或者有疑问的可以在下面留言问我。

2019-02-14

windows版hadoop插件

windows版hadoop插件,安装后就可以正常在idea中连上cdh等大数据集群中的节点了

2019-02-14

springboot增删改查

thymeleaf+springboot+jpa+mysql实现增删改查 thymeleaf+springboot+jpa+mysql实现增删改查

2018-07-22

安装vue详细教程

给那些刚刚接触或者想接触vue的小白,安装vue并新建好一个vue项目其实还是有点麻烦的,有许多坑,本文档是我踩坑后写的 ,希望对大家有所帮助。

2018-07-22

tiezi_guanli

基于myeclipse下的jsp,servlet,java,oracle开发的一个帖子管理系统。

2016-07-01

c语言心形图案

c语言编写的一个心形图案加一首诗,给人以浪漫之感,是表白的一个神器。

2014-03-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除