自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(215)
  • 收藏
  • 关注

原创 大数据开发自我介绍

面试官你好,我叫xxx,目前做数据开发有四年了,主要从事是银行的项目比较多,在工作中比较善长的是数据字典的维护、数据的etl过程以及plsql编程,平时工作中用的比较多的数据库是Oracle和hive,写的比较多的是sql脚本和存储过程等,也会做些简单的优化工作。

2024-05-16 18:26:46 195

原创 oracle和MySQL 接到select* 这条语句,会执行什么操作呢

**性能影响**:如果表中的数据量很大,使用 `SELECT *` 可能会影响性能,因为它需要检索表中的所有列。2. **查询优化**:数据库的查询优化器会分析查询语句,确定最佳的执行计划,以最高效的方式检索数据。- **数据传输**:如果客户端和数据库服务器之间的网络带宽有限,检索所有列可能会增加数据传输的开销。- **明确性**:在编写查询时,最好指定需要的列名,这样可以提高查询的可读性和明确性。5. **检索数据**:数据库从存储引擎中检索出所有表中的所有列的数据。

2024-05-16 15:12:30 345

原创 你是什么时候发现,上班是没有意义的?

那一刻我意识到,员工无非是公司购买的劳动力,不管你什么学历、能力,又或者家里家外有什么角色,在公司眼里,你跟一个物品没什么区别。这活儿,能干咱就好好干,干不了那就是干不了,买的东西还有坏的时候呢,何况一个活生生的人,我就不能做不好吗?我突然就对工作就看开了,把自己物化,工作中不要玻璃心、不要投入太多个人情绪,更不要委屈和为难自己。当然不是让你在工作中摆烂,而是看清工作的本质,不要给自己太大压力◇更不要因为工作而影响自己的生活。部门裁员,无意间听到领导在屋内聊天," XX 成本太高,出活儿慢,不划算。

2024-05-15 15:49:52 456

原创 大数据体系

镜像增量和镜像对比:镜像更新,是使用两个表的一个列或者是多个列进行数据的对比,如果这些列的数据一致,对其他的字段进行数据的更新,如果这些列的数据不一致,那么就进行数据的新增。2.ODS临时存储层:将数据源的数据,原封不动的抽取到ODS临时存储层的数据库里面,在原有是数据基础上,一般只添加数据的来源和数据的抽取时间:所有的数据都只保存3-6个月的时间。统一计算的单位、金额的币种;核心系统、客户系统、财务系统、人力资源系统、结算系统、销售系统、第三方系统数据、人工的补录数据、埋点数据、日志信息等等。

2024-05-15 15:48:15 317

原创 众邦银行数据开发(武汉)笔试题

优点:层级依赖通过将数据加工任务按照层级进行划分,减少了任务之间的直接依赖关系,使整个数据加工过程更加结构化和清晰。我的选择与理由: 在数仓的调度任务较多的情况下,我会选择层级依赖。对于较大规模的数据仓库来说,它能够更好地管理任务之间的关系,使整个数据加工过程更加结构化和清晰。2. 两个表的数据量,相差很大,并且表连接的列都是有索引的,这个时候的等值连接就不会变成hash join,而是会使用nl嵌套连接。优点:对于简单的数据仓库环境和少量的数据加工任务,表级依赖可以更容易管理和维护。

2024-04-30 12:27:55 585

原创 保险专业术语(保险项目专用)

帮你解读保险专业术语(一)1. 保险人:指与投保人订立保险合同,并承担赔偿或者给付保险金责任的保险公司。2.投保人:指与保险公司订立保险合同,并按照保险合同负有支付保险费义务的人。3. 被保险人:指其身体或生命受保险合同保障,享有保险金请求权的人。4. 受益人:指人身保险合同中由被保险人或者投保人指定的享有保险金请求权的人。5.保险利益:又称可保利益,指投保人对保险标的具有法律上承认的利益。6. 保险费:简称保费,指投保人交付给保险公司的钱。7.保险金:指保险事故发

2024-01-03 10:41:05 1108

原创 ​​​​​​​Oozie和Azkaban对比

Azkaban查询的是进程执行的结果,如果某进程执行的shell命令出错,其进程仍展示位成功,混淆了任务输出。2.Oozie的操作是放在Hadoop中,而Azkaban的运行是服务器运行shell命令。,Azkaban将任务的状态存储在服务器内存中,如果掉电,则Azkaban会丢失任务信息。,通过HUE集成管理,可以更加方便的在Web页面上完成workflow的启动、停止、恢复。5.Ooize中定义的action类型更为丰富,而Azkaban中的依赖较为简单,当面对。4.Oozie将任务执行的状态。

2023-12-23 13:20:40 462

原创 星展银行面试题

1:关于python和hbase的 sql语句问题,hadoop和 spark 的区别 scala的闭包特性 scala的下划的作用?4. Hive和其他database(Oracle,MySQL, SQLsever)的不同?3:如果一个网站或系统 存在连续三天登录的人 找连续怎么处理或实现具体途径?7.Hive和MySQL/Oracle的区别,一些SQL语句编写基础问题。11.一些python基础问题(例:tuple和list的区别)2. 说说Hadoop中的HDFS的作用?

2023-12-23 13:16:02 722 3

原创 员工入职需提交资料

1.北京、杭州办理社保卡对照片要求:近期、正面、免冠、服装与背景的颜色反差要大,JPG格式,358像素(宽)×441像素(高),文件大小为9K~20K。2.济南办理社保卡对照片要求:人像清晰,神态自然,无明显畸变,JPG格式,358像素(宽)×441像素(高),文件大小为16K~60K,6.体检报告:公立二级及以上医院或公司指定的体检机构(美年/爱康及其它全国知名连锁体检中心)的体检报告(半年内有效)—EIS上传电子版。11.深圳、东莞:已婚者必须提供配偶姓名及身份证号码(EIS中填写)

2023-12-21 11:17:49 491

原创 一份很草率的简历模版

1998.09~2002.07 北京理工大学 计算机科学与技术 本科。技术与服务(自己补充)

2023-12-15 20:15:44 403

原创 广州Y行信用卡中心大数据部数据开发岗笔试题

- 未排序,直接提取原表逻辑结构前10条记录。B.S.S#=SC.S# AND C.C#=SC.C# AND S.SEX IN '男' AND C.CNAME IN '数据库';A.S.S#=SC.S# AND C.C#=SC.C# AND S.SEX='男' AND C.CNAME='数据库';注:客观题(选择题)答案全对,主观题27、28已测试验证,但28缺少用UPDATE的题解,如有错误和如需补充望指正。其中S#是学号,SNAME是学生姓名,SEX是性别,C#是课程号,CNAME是课程名称。

2023-12-15 18:58:07 1777 1

原创 民生银行笔试题(待整理)

在上面的语句中,你需要将"列1, 列2, ..."替换为你想要查询的列名,"表名"替换为你要查询的表名。通过在ORDER BY子句中指定"总分 DESC, 英语 DESC",查询结果将首先按照"总分"列降序排序,然后在相同"总分"的情况下再按照"英语"列降序排序。在这种情况下,RPO可能是灾难发生前的某个时间点。交叉连接(CROSS JOIN)是一种连接操作,它返回两个表的笛卡尔积,即左侧表的记录与右侧表的记录的组合。因此,总分离的记录将排在前面,总分相同的记录中,英语分数较高的记录将排在前面。

2023-12-13 10:31:02 604

原创 关于试用期的那些事

定位清晰,双选,被劝退,不是你的能力不行(记得要赔偿),你在试用期离职(当然是接到更好的,在跑路),打工人,还是活的现实点,多学技术,多总结,多面试,增加职场竞争力。

2023-12-12 18:21:08 520

原创 中国人寿笔试题

知识点:数据库模式 数据库范式 临时表 游标 索引 锁 ACID 学生、课程、系SQL 学生、选课、课程SQL、简答题一个是orcale 的rowid,还有一个表连接(刷刷牛客数据库相关的题)对拥有复杂逻辑的视图,再次表连接等操作,会导致语句更加复杂,运行效率很慢。将一个复杂的select语句,放入到一个视图里面,简化日常的操作。Oracle中的rowid是行的物理地址,可以唯一标识表中的行。可以隐藏一部分原表的列,简化别人在操作表的时候的业务逻辑。外模式是用户能够看到和操作的数据的方式。

2023-12-12 13:45:37 423

原创 Teradata SQL 编写规范

2.2 编写规范........................................................................................................................................ 2。

2023-11-14 17:27:09 314

原创 学习oracle这一篇就够了

全连接 full [outer] join:先显示两个表的共同数据,然后再显示左边表的独有数据,右边没有匹配就显示为空,然后再显示右边表的独有数据,左边没有匹配就显示为空。oracle的物化视图:是一个真实的物理的表格,将一个或多个表格查询的结果,当成一个新的表格来保存,物化视图的表格,会对原表的数据进行同步,物化视图的表格,本身就是不能更改的。输入一个用户的编号,首先要先判断有没有这个用户,如果有这个用户,就输出这个用户的工资等级,2000以下是C,2001-3000是B,3001以上是A。

2023-11-14 17:17:38 167

原创 numpy 学习

axis为1,按行求和。# .T方法:转置,例如原shape为(3,4)/(2,3,4),转置结果为(4,3)/(4,3,2) → 所以一维数组转置后结果不变。#ar4 = np.array([[1,2,3],('a','b','c','d')]) # 注意嵌套序列数量不一会怎么样。ar3 = np.array([[1,2,3],('a','b','c')]) # 二维数组:嵌套序列(列表,元祖均可)print(ar[m]) # 用m判断矩阵去筛选ar数组中>5的元素 → 重点!

2023-10-29 21:28:27 94

原创 CH08数据读写

print(os.path.split('C:\\Users\\Hjx\\Desktop\\text.txt')) # 函数返回一个路径的目录名和文件名。path2 = 'C:\\Users\\Hjx\\Desktop\\text.txt' # 两个斜杠:\\(第一个\是转义符)path = 'C:\\Users\\Hjx\\Desktop\\jiuba.txt' # 创建路径变量。#os.chdir('C:\\Users\\Hjx\\Desktop\\' ) # 切换到目标路径。

2023-10-29 20:14:12 47

原创 CH07模块与包

Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。# 创建一个模块,包含一个阶乘函数f1(n)、一个列表删值函数f2(lst,x),一个等差数列求和函数f3(a,d,n)# random.choice()随机获取()中的一个元素,()种必须是一个有序类型。# random.random()随机生成一个[0:1)的随机数。# 直接用import调用模块,.f1()调用模块函数(方法)# 创建等差数列求和函数f3(a,d,n)

2023-10-28 15:17:13 41

原创 CH06函数

f(m)中,m是函数的参数,f(x)是吧x的值赋予了m,但x值自己本身不受影响,所以执行函数后,是在函数局部“变化”了x。所有变量的作用域是它们被定义的块,从它们的名称被定义的那点开始。→ 当函数定义内声明变量的时候,它们与函数外具有相同名称的其他变量没有任何关系!# lambda作为匿名函数,是不需要函数名的 → 需要一个函数,又不想动脑筋去想名字,这就是匿名函数。定义在函数内部的变量拥有一个局部作用域,定义在函数外的拥有全局作用域。# n = 2,这里n的默认值为2,如果不输入则以默认值为主。

2023-10-28 15:10:58 52

原创 抖音短视频运营方法和技巧

在抖音上,每天都会有不同的挑战,你可以根据综合的对比来判断哪些话题具有火爆的潜力,选几个你认为能火的话题做一些相应的视频,这样可以提高上推荐的几率(注:符合自己账号标签的)。

2023-10-28 14:14:00 913

原创 CH05条件及循环语句

break语句用来终止循环语句,即便循环条件没有False条件或者序列还没被完全递归完,也会停止执行循环语句。# continue 语句用来告诉Python跳过当前循环的剩余语句,然后继续进行下一轮循环。# continue 语句用来告诉Python跳过当前循环的剩余语句,然后继续进行下一轮循环。# 如果使用嵌套循环,break语句将停止执行最深层的循环,并开始执行下一行代码。# 关于无限循环:如果条件判断语句永远为 true,循环将会无限的执行下去。

2023-10-28 14:07:14 39

原创 CH04字典映射

.keys()方法:输出字典所有key,注意这里的输出内容格式是视图,可以用list()得到key的列表,类似range()# 用{}来表示,按照key:value来表示字典中的元素,其中key是键,value是值,key-value也就是键值对。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中。# key必须是不可变的对象,value则可以是任意对象:数值,字符串,序列,字典。

2023-10-28 13:42:11 38

原创 CH03序列及通用操作

print(lst[2:5]) # 切片可以理解成列表的值区间,且是一个左闭右开区间,这里lst[2:5]代表的区间是:索引2的值 - 索引4的值。# str.startswith(“str”) 判断是否以“str”开头;print(max(lst), min(lst), sum(lst)) # 返回列表的最大值、最小值、求和,这三个函数都只针对数字的list。print(lst[0],lst[2],lst[9]) # 索引从0开始,eg lst[2]中,下标索引是2,指向lst的第3个值。

2023-10-28 13:32:41 53

原创 CH02变量及数据类型

bool()函数:将值转换为布尔型,其中只有以下情况bool()返回False:0, 0.0, None,'', [] , {}# 一定用英文标点符号,单引号('') 双引号("")一样,三引号(''''''或"""""")可以表示多行字符串。# Tuple元祖,用()标识,不能二次赋值,可以理解成不可变的列表(只读列表),有序对象。# List列表,支持字符,数字,字符串以包含列表(即嵌套),用[]标识,有序对象。# Dict字典,用{}标识,由索引(key)和它对应的值value组成,无序对象。

2023-10-28 12:13:21 33

原创 看板展示(永洪bi)

2023-10-12 22:13:49 110

原创 项目中遇见的问题(供大家参考,后续会补充)

一看上游是不是产出晚了,如果是自己的问题,看是不是数据量有暴增,是不是出现数据倾斜,再看资源问题,是不是集群计算资源不够了(比如大促时期有些任务会挂高级基线抢占集群资源)第二种,运行的结果和预期结果不太一致:在存储过程中,在每个判断、循环等位置,写上变量和表格数据的打印,查看一下是否是逻辑问题,然后再查看表格对应的上游数据是否有问题。第二个可能是会出现数据和预期不一致的情况,首先看是否是调度工具的问题,其次是逻辑的问题,然后是上游数据的问题。etl超时了,你怎么找到原因,是哪一块超时了。

2023-10-12 22:04:43 198

原创 指标开发怎么做

2023-10-12 18:14:26 129

原创 大数据面试题

HDFS的架构HDFS的读写流程3.小文件过多有什么危害,你知道的解决办法有哪些Secondary NameNode 了解吗,它的工作机制是怎样的简述MapReduce整个流程join原理yarn 的任务提交流程是怎样的简述Hadoop1.0 2.0 3.0区别简述什么是CAP理论,zookeeper满足CAP的哪两个zookeeper集群的节点数为什么建议奇数台Paxos算法Zab协议简述flume基础架构请说一下你提到的几种source的不同点flume采集数据会丢失吗简

2023-10-07 10:45:59 98

原创 Table API 和 Flink SQL

Over windows 使用 window(w:overwindows*)子句定义,并在 select()为了定义一个表函数,必须扩展 org.apache.flink.table.functions 中的基类。为了定义标量函数,必须在 org.apache.flink.table.functions 中扩展基类。Table API 基于代表“表”的 Table 类,并提供一整套操作处理的方法 API;用户定义函数(User-defined Functions,UDF)是一个重要的特性,它们显。

2023-10-04 12:31:21 53

原创 Table API 和 Flink SQL

更改,进行持续的修改。持续查询,会在动态表上做计算处理,并作为结果生成新的动态表。表作为流式查询的结果,是动态更新的。本身,一般是有界的,更适合批处理的场景。因为流处理面对的数据,是连续不断的,这和我们熟悉的关系型数据库中保存的“表”在任何时间点,连续查询的结果在语义上,等同于在输入表的快照上,以批处理模式执。在大多数情况下,用户定义的函数必须先注册,然后才能在查询中使用。并且,对于表函数返回的是空表的外部行,也要保留下来。定义一个滑动窗口,第一个参数是时间字段,第二个参数是窗口滑动步长,第三个是窗。

2023-10-04 12:14:56 211

原创 大数据项目之CDH安装部署

(1)dim层逻辑,flink程序监听dwd层topic,也就是对应的三张事实表数据,用户基础表、用户支付金额表、用户注册跳转地址表,形成三个流进行三流join,以用户表为主表使用flink co group实现left join。配置hadoop101对hadoop101、hadoop102、hadoop103三台服务器免密登录。(1)flink监控多个topic,先对topic中数据进行过滤,使用侧输出流将维度表数据和事实表数据区分开,维度表写入kudu表中,事实表写入第二层kafka topic。

2023-10-03 20:56:50 270

原创 大数据各大厂面 试 真 题 答案及代码解析

on t0.usr_id=t1.usr_id and t0.load_dt=date_sub(t1.load_dt, interval 1 day) --修改本处的 1,3,7 即可得到任意一天的。on a.cust_uid=b.cust_uid and a.prd_id=b.prd_id --细节,关联条件必须为 cust_uid & prd_id,两个都要写。通常数据开发人员在设计物理模。'2020-07-08', '2020-07-09', '2020-07-10') --大家想想有没有其他方式呢?

2023-10-03 17:44:54 453

原创 数据分析中的特有名词解释

一个数据集执行完后,返回的数据结果我们叫它Data Grid。图表在渲染之前,获取的数据结果,我们也叫它DataGrid。数据准备是将格式良好的数据放入单个表或多个相关表中以便在 Yonghong BI中进行分析的过程。维度是定性的,表示数据分类的角度或方面,不能被测量,而是被描述。数据源是数据的来源,它为Yonghong BI提供最原始的数据。度量是定量的,表示可被用于衡量和统计的数值。聚合是指多个数据值按照一定的规则组合为单一值。自服务数据集是数据集中的深度加工过的表。数据集是用户用做数据分析的表。

2023-09-23 18:40:16 87

原创 永洪报表入门

x+viewer 优势:私有化部署,将 Desktop 报告上传至 X+Viewer,数。Mac 安 装 产 品 后 , 打 开 提 示 如 下 情 况 , 如 何 解 决?此处应注意:mac 是没有默认 root 账户的,如果没有 root 账户,所。x+viewer 安装需要部署环境,设置系统所需的 Java 环境的 Jdk、(2)Mac 电脑下载完成后,找不到应用程序,启动太也没有,怎么解决?切换 root 用户:su root 输入 root 用户密码:******使用,可以将其直接拖到程序坞。

2023-09-23 18:27:19 577

原创 Excel常用函数

根据,数据区域,数据所在列数,近似/精确。注意:如果是数据排名,要先进行排序,根据,数据区域,精确/小于。开始日期,结束日期,“Y”数据区域,纵坐标,横坐标。用法2:数据近似匹配。用法1:数据精确查找。本身不带有排序功能。

2023-09-18 23:39:29 54

原创 shell从入门到精通

前言学习目标熟悉Linux系统常用命令与工具,掌握Shell脚本语言语法结构,能独立编写Shell脚本,完成自动化运维常规任务,提高工作效率,为以后学习其他语言打下坚实的基础。目标人群运维工程师、开发工程师、Linux系统爱好者或已经具备其他编程语言的人群。操作系统本文档实验均采用CentOS7_X64系统。目录第一章Shell基础知识 1.1 Shell简介 1.2 Shell基本分两大类

2023-09-17 19:12:30 1932

原创 8.BASE使用指导

BASE使用指导1配置此套BASE平台为阿里将内部使用及公网BASE包装后输出的独立产品,依赖CDP、ODPS、PAI(尚未整合进来)。目前搭建在数梦四楼机房20号机柜,共5台服务器。这5台服务器仅安装了BASE的WEB应用与服务,及CDP,ODPS直接使用了DThink平台的系统。此BASE平台安装与部署目前由梦见山、鬼谷子、华佗维护。

2023-09-17 18:21:31 105

原创 7.数据仓库出ETL操作指导

按照这种情况,汇聚层作为后续流程的数据提供者,不对数据做任何的加工处理,而镜像层和主题层作为两个数据的需求者,需要根据各自对数据的使用目的进行相应的数据处理,然后存储在各自的表中,所以数据加工处理工作是在数据的需求方哪里完成的,即数据的清洗、转换和载入的任务是在主题层创建的,镜像层的数据载入任务是在镜像层创建的。数据装载分为主题层的数据装载和镜像层的数据装载,通常情况下主题层使用拉链表的形式存储数据,镜像层使用分区保存原始表的每日全量数据,所以两个区域的装载逻辑是不同的,下面分别介绍。

2023-09-17 18:17:25 190

原创 6.安全设计文档模板

【编写提示:考虑各操作系统的互联、注册表的修改,发布、升级、补丁包、下载,防止源代码泄漏的措施,如操作系统、数据库软件等版本标识的明确,安装部署时,对系统软件(尤其是操作系统和数据库)的默认配置项进行调整的,如何说明的。【编写提示:应用系统和数据库的超级用户密码是如何管理和维护的,密码存放是否经过加密处理,加密算法如何实现的,用户密码规则如何设计的,是否有强制或提醒用户更改密码措施,是否设计的动态密码及设计动态密码的优点】;【编写提示:日志记录是如何设计的,是否能够完整的记录修改前和修改后的状态。

2023-09-17 18:14:15 326

Python基础.zip

适合于Python入门到精通 ,爬虫先导课,输入,输出 列表,元组,操作数据库

2023-07-30

大数据开发程序员 求职简历模版

简历 大数据开发程序员 求职简历模版

2023-07-29

Linux安装及其使用.docx

Linux的安装及其使用

2023-07-29

搭建大数据大一统环境.zip

大数据集群搭建,内含hadoop hive sqoop HBASE Phoenix spark kafka flume zookeeper flink 安装

2023-07-29

mysql-connector-java-8.0.32-bin.zip MySQL8 连接驱动

mysql-connector-java-8.0.32-bin.zip MySQL8 连接驱动

2023-07-29

jdk-8u281-windows-x64.zipjdk

jdk-8u281-windows-x64.zip 安装包

2023-07-29

anaconda3资源下载

anaconda3资源下载

2023-07-29

十家互联网大厂SQL笔试题

十家互联网大厂SQL笔试题

2023-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除