自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DCHAO的博客

金融、大数据 数仓开发、运维、项目经理

  • 博客(344)
  • 收藏
  • 关注

原创 git-查看日志、log和reflog

git 日志

2022-09-29 19:27:11 5172

原创 hive-join

hive-join

2022-09-28 19:03:55 428

原创 SQL的执行顺序

sql执行顺序

2022-09-19 20:32:20 499

原创 shell-数值计算、expr

shell-数值计算、expr

2022-08-26 18:20:52 370

原创 shell-数组和关联数组

shell-数组和关联数组

2022-08-25 17:49:15 494

原创 hive-面试

hive-面试

2022-08-14 11:35:49 372

原创 spark异常

spark异常

2022-08-11 10:40:26 3609 2

原创 windows-连接到同一网络的2台电脑共享文件

1

2022-07-31 11:57:44 607

原创 spark和hive在一些函数上的不同

spark和hive在一些函数上的不同

2022-07-29 17:15:13 515

原创 cdh异常

cdh异常

2022-07-25 20:28:33 532

原创 hive-函数-reflect

hive-函数-reflect

2022-07-25 16:52:43 1080

原创 hive-临时表

hive-临时表

2022-07-21 18:07:53 998

原创 hive-hive -e中的引号文本转义的问题

hive -e 双引号

2022-07-19 11:46:52 1277

原创 hive&sql-LEFT JOIN之后,数据量为啥比左表还要少

a表 LEFT JOIN B表,结果表的数据量正常应该是=a表或者>a表。但有种情况,结果表会比a表少。逻辑很简单,就是用两个表同一天的分区数据做关联,但是结果却比 a 表的数据少了。当把唯一一个 “where” 换成 “and” 后,结果便正确了。这个原因其实是过滤数据的对象不同。下面用 MySQL 创建示例来进行说明,只用on,是我们想要的结果还是以左表为准,只是右边只有 dept_id = 2 的数据。所以,LEFT JOIN时,无论ON的条件如何,左表不会被过滤,只会过滤右表。ON仅

2022-07-13 12:07:13 4012

原创 linux-windows10使用wsl运行linux子系统

wsl

2022-06-26 21:57:37 1094

转载 linux文本处理常用命令wc、uniq、sort、cut

wc、uniq、sort

2022-06-15 11:35:19 302

原创 hive-函数

其实就是if else,根据表中数据,计算结果,返回一列一般用来转化,转化什么呢?select查出来是一行行的,但有时需要根据将一个维度转化成另一个维度。比如省份列,将山东转成山东省,或者码值。或者改变下维度的层级。比如省份列,将山东转成华北,将山东济南转成济南。.....................................................................

2022-06-15 10:49:38 2663

原创 shell-wc

shell-wc命令

2022-06-08 15:33:52 456

原创 hive-insert

hive insert时遇到的问题

2022-06-08 08:43:56 2504

原创 hive-exception-SemanticException [Error 10044]:Table insclause-0 has 3 columns, but query has

hive报错

2022-06-06 14:12:00 1670

原创 spark-3.0-AQE(Adaptive Query Execution)自适应查询

前置AQE是一个运行时SQL优化框架,旨在解决由于优化器统计信息不足、不准确或过时而导致的查询执行计划的低效和缺乏灵活性的问题。可以理解成是 Spark Catalyst 之上的一层,它可以在运行时修改 Spark plan,之前的物理执行计划不再是最终的计划,而是在每个query stage完成之后,动态的根据数据统计的情况,动态调整后续计划,动态合并shuffle分区,自动调整SQL JOIN策略;动态优化数据倾斜。默认关闭,可以更改配置 “spark.sql.adaptive.enabled”:

2022-05-23 02:08:45 680

原创 spark-调优-性能调优&内存管理

前置主要涉及6个参数,从3个方面:executor、core、内存的大小,并行度,内存管理 进行调优优化的方案资源分配num-executors:spark使用多少个executorsexecutor-cores:core和task的数量这2个参数要结合一起来配置,还要考虑可用的计算资源,executor-cores设置为2-4个比较合适,num-executors就是总共可用的cores 除以executor-cores。当然,这一切都要在可用范围内并行度spark.default.par

2022-05-23 01:56:31 895

原创 shell-cut

com将一个文件以行为单位进行分割,和sed一样syntaxcut有3种分割方式byte: -b 按字节haracters: -c 按字符fields: -deg:提取第3,4,5,9的字节: cut -b 3-5,9对于非固定格式信息,需要域。之前需要先设置间隔符,再提取第几个域。cut -d : -f 1-d设置间隔符为:,-f 1 为提取第一个域。notic如果遇到空格和制表符时,怎么辨认?先检查这段空格是由空格组成还是制表符组成:cat tab_space.txt

2022-05-19 20:55:35 217

原创 hive-动态分区Dynamic Partition

com往分区表插数据时,需要指定分区。这样一次只能插入一个分区。如果插入数据分散在多个分区中,就要通过动态分区功能,自动创建分区并填充。参数配置在使用动态分区之前,我们要进行一些参数的配置.hive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关闭。使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition.mode默认值:strict动态分区的模式,默认strict,表示必须指定至少一个分区

2022-05-19 19:38:42 8211

原创 hive-窗口(分析、OLAP)函数

前置所谓分析,就是复杂到简单,大多数情况,都是多变少。基本思想就是分门别类、多条数据归纳出一条结论。也就是分组和聚合。而group by分组只能根据列,太死板。窗口函数提供了一种灵活、强大的分组方式,配合公用和独有的聚合函数,能实现复杂的逻辑syntax1.作为窗口函数使用的函数有两类:专用窗口函数rank、dense_rank、row_number 聚合函数(sum、avg、count、max、min)2.其中partition by可以省略。窗口函数的partition by子句不是必须的,

2022-05-12 18:22:27 1650 1

原创 VMware安装完,没有虚拟网卡VMnet1、VMnet8,导致ssh工具连不上

没有没有虚拟网卡VMnet1、VMnet8,导致ssh工具连不上https://blog.csdn.net/weixin_57791134/article/details/118674250按步骤操作即可,尤其需要注意的是,某些win10系统service.msc里面的2个服务会自动停止,重装VM的时候,一定要手动查看这2个服务状态,停了就马上手动启动。在安装阶段保证这2个服务一直运行。之后在适配器设置里面就能看见虚拟网卡了虚拟机设置vmware安装完,首先打开虚拟机,用ifconfig看

2022-04-29 11:54:54 1220

原创 hive-行列互转,posexplode、lateral view、concat、collect

行转列正常数据以列分组,group by 后面跟的是列。行是数据,列是维度。如果更换维度,使用拼接的列一行的单元格原来是数据,现在跟其他单元格拼接成为分组依据,先把单元格拼接起来,然后以拼接后的值为维度,拼接后的值就成了列列转行将一单元格中的数据拆分后分散为多行.........

2022-04-28 15:34:59 8069

原创 spark、hive-数据倾斜

spark一、调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能二、数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,

2022-04-21 15:35:58 708

原创 周边-冥想

大脑运作方式大脑一直处于高强度工作中,你上次放下手机、不受打扰、放空自己是啥时候?很多人失眠、焦虑,知道自己出了问题却又捋不清头绪冥想的认识冥想其实是对大脑的一种锻炼和放松(两者不矛盾,就像旅游、健身一样)让大脑定期休息一人或多人都可以,姿势随意训练大脑就是改变那些与过去感情和事情的关系,学习从更多角度看待它们冥想原理技巧1:专注冥想的一个基本技巧就是专注,设置一个聚焦的点,可以是一个视觉化想象、一个问题、一个词、外部的某个东西。比如呼吸,就像船锚,走神时可以恢复。冥想对血压、大脑结构

2022-04-19 04:07:47 366

原创 svn-权限管理

一、找到svn的节点和配置文件目录svn节点就在svn的链接中svn的配置文件的目录:登陆svn节点ps -ef | grep svn在屏幕左边找到svn的进程号,把PID那一列的数字复制ll /proc/复制的数字在屏幕中,找到cwd那一行,能获取svn的安装目录,配置文件目录就在./conf下二、创建用户、设置权限创建用户、设置权限三、设置完重启svn查看svn进程:ps -ef | grep svn强制杀死进程:kill - 9 进程号(PID那一列)重启svn:s

2022-04-06 14:52:43 4204

原创 积累思考-vehicle-马力和扭矩

马力:用来描述vehicle一秒钟的工作量。类比为一个人一小时搬了多少东西。扭矩:用来描述发动机每转一圈所输出的力。类比为一个人一趟能搬多少东西。马力 = 扭矩 × 转速假如有2辆一模一样的自行车(非变速,就一个档),2个人(一模一样,克隆关系)。2个人的功率是一样的。2人同时骑自行车,起步时,一个用力蹬,一个不用力。用力的人,肯定起步快,加速度高,但因为用力大,体力都耗费在蹬上了,频率肯定低。...

2022-04-05 15:24:52 191

原创 健身-家用腹肌训练

平板支撑(可刷剧看抖音)卷腹臀支闭合

2022-03-29 15:05:28 159

原创 related knowledge points about protein

分离比普通的更好尖端乳清蛋白粉 混合蛋白(浓缩+分离+水解),含有较高的bcaa成分,并且额外添加了MyZyme(混合酶,蛋白酶,淀粉酶,乳糖酶, 纤维素酶, 脂肪酶)更易吸收,适合乳糖不耐人群哦,也是可以增肌补充蛋白质的myprotein和熊猫粉的关系熊猫这个意思就是Simeon Panda代言myprotein产品,Simeon Panda外号就叫熊猫。熊猫是代言人的外号,并不是品牌中文名或者产品名叫做熊猫哦myprotein送的勺子有多少克蛋白粉水温请勿超过40摄氏度,忌用开水冲泡 *摇晃

2022-03-28 14:11:17 2073

原创 积累思考-开车找点

转弯时时判断左右前角提前对车头高度占前面障碍物的高度心里有数。拐弯时,车边朝前边拐弯,朝前的权重要大。所以最容易碰到的位置就是即将转出的时候,转出时要最为谨慎。左转:通过右前盖的点来判断。正常坐姿下,眼睛肯定比前盖高,离前面越近,通过中前线看到的下边界越高,当看到的内容比车头投影高度低一点时,说明到了极限。因为右前盖点比中前盖线远,所以极限位置可以靠上一点。右转:左前点距离眼睛还是比中前线远,但比右前点近,所以左前点极限位置比右前点极限位置低一点。总结:因为拐弯的过程中车也是朝前走的,已知

2022-03-16 16:54:43 143

原创 20220223换硬盘操作

一、查看230上有没有重要的非cdh的数据,有的话迁移到别的节点。查看cdh上230节点的角色二、230重置三、通知运维换硬盘四、将硬盘转入lvm管理1.查看硬盘fdisk -l,有一个是之前的系统盘,有一个是新换的2.将新换的硬盘转成pvpvcreate /dev/新硬盘pvscanpvdisplay3.创建vg查看别的节点上的卷组的命名 vgdisplayvgcreate rootvg /dev/sdbvgcreate optvg /dev/sdbvgdisplay4.创

2022-02-23 14:21:44 1375

原创 菜谱1111111111111

土豆炖牛肉偏西式做法:汤少粘稠,放黑胡椒、洋葱,也可以加入胡萝卜和西红柿。不加花椒、八角牛肉一斤,土豆2个,洋葱一个,葱姜、小葱、料酒、冰糖、生抽、老抽、干辣椒、黑胡椒粉、干山楂牛肉切块、土豆切块,土豆泡水里,洋葱切粒,葱姜、小葱牛肉焯水,加入葱姜、料酒,开锅后,撇去浮沫,开锅情况下将牛肉和水捞分离起锅烧油,油热后,加入土豆煎至表面金黄捞出,加葱姜、干辣椒、洋葱粒,炒出香味,加入牛肉,加入冰糖、生抽老抽蚝油、料酒,炒到牛油出来,牛肉缩小。加入开水,汤要没过牛肉即可,加干山楂,40分钟后加入土豆,

2022-02-19 20:33:17 204

原创 数据分析和数据开发的区别

数据分析(DA)和数据开发/数据仓库工程师(DE)究竟有什么区别,工作职责和工作内容上的差异是什么?一般都知道,数仓偏开发,主要是技术层面的工作,负责ETL、数仓、分布式计算、大数据运维等。数分偏业务,通过分析数据、建模、搭建指标体系,找出规律,给业务赋能。数仓同学日常负责一个业务整个数据体系的构建,也就是传说中的“数据仓库”。这个仓库中既有最底层的明细数据表,也有一层一层做过计算和组合的聚合数据表。数据分析师在日常工作中,经常会使用各种聚合表做一些简单的可视化或更复杂的分析,来监控业务的核心指标或者

2022-01-21 11:22:37 5506

原创 需求-数据资源管理平台

context大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。因此,通过大数据分析,政府、机构和企业可以掌握自身甚至一个领域、地区的规律。以电商交易为例,用户的所有消费、购买、交易等行为在这个平台上有所有数据的记录。 除了出售产生的实际价值外,数据能提供的内在价值更为巨大,其内容完全可以创造出新的产品。例如,客户特性、购买力、购买内容等可以用来进行客户群体细分,然后为每个群体量定制特别的服务。客户购买

2022-01-17 16:45:01 1564

原创 java项目的日志解决方案

Java项目开发过程中免不了要使用日志系统,据调查,java项目10%的代码是日志代码。目前比较主流的日志系统有slf4j、log4j、log4j2、logback。那么这些日志系统究竟有什么联系和区别呢?Slf4j,全称是Simple Loging Facade For Java,仅仅是一个为Java程序提供日志输出的统一接口,因为日志具有很强的标准性,所以发明了Slf4j来方便的切换不同的日志底层实现。相当于一个框架接口,Log4j、LogBack相当于框架实现。log4j于2015年停止更新

2021-12-25 11:46:50 2362

原创 vscode 快捷键、配置vue开发环境

一、Vue插件终端powershell和cmd都可以用powershell相比cmd:cd 后可以直接跟全路径,不用先换盘符终端设管理员权限https://blog.csdn.net/ppwwp/article/details/83901915异常vue : 无法加载文件 G:\develop\SDK\nodejs\node_global\vue.ps1把G:\develop\SDK\nodejs\node_global\vue.ps1删了即可...

2021-11-27 13:06:19 452

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除