整理精华
文章平均质量分 66
面试必问问题,找工作必备
一凡888
感觉要暴富
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据开发自我介绍
面试官你好,我叫xxx,目前做数据开发有四年了,主要从事是银行的项目比较多,在工作中比较善长的是数据字典的维护、数据的etl过程以及plsql编程,平时工作中用的比较多的数据库是Oracle和hive,写的比较多的是sql脚本和存储过程等,也会做些简单的优化工作。原创 2024-05-16 18:26:46 · 960 阅读 · 0 评论 -
大数据体系
镜像增量和镜像对比:镜像更新,是使用两个表的一个列或者是多个列进行数据的对比,如果这些列的数据一致,对其他的字段进行数据的更新,如果这些列的数据不一致,那么就进行数据的新增。2.ODS临时存储层:将数据源的数据,原封不动的抽取到ODS临时存储层的数据库里面,在原有是数据基础上,一般只添加数据的来源和数据的抽取时间:所有的数据都只保存3-6个月的时间。统一计算的单位、金额的币种;核心系统、客户系统、财务系统、人力资源系统、结算系统、销售系统、第三方系统数据、人工的补录数据、埋点数据、日志信息等等。原创 2024-05-15 15:48:15 · 553 阅读 · 0 评论 -
项目中遇见的问题(供大家参考,后续会补充)
一看上游是不是产出晚了,如果是自己的问题,看是不是数据量有暴增,是不是出现数据倾斜,再看资源问题,是不是集群计算资源不够了(比如大促时期有些任务会挂高级基线抢占集群资源)第二种,运行的结果和预期结果不太一致:在存储过程中,在每个判断、循环等位置,写上变量和表格数据的打印,查看一下是否是逻辑问题,然后再查看表格对应的上游数据是否有问题。第二个可能是会出现数据和预期不一致的情况,首先看是否是调度工具的问题,其次是逻辑的问题,然后是上游数据的问题。etl超时了,你怎么找到原因,是哪一块超时了。原创 2023-10-12 22:04:43 · 344 阅读 · 0 评论 -
指标开发怎么做
原创 2023-10-12 18:14:26 · 311 阅读 · 0 评论 -
python复习
使用Python分析ETL的过程和数据计算的过程中日志的步骤数据(例如可以使用python分析kettle最后日志的结果,查看每个步骤的平均时间,找出时间消耗最多的步骤等、也可以分析hive数据库运行过程中yarn log错误信息等)-- 通过smtplib模块,进行了有附件功能添加的邮件信息的发送(必须要保证你发送的邮箱,smtp功能是打开的,并且获取到邮箱的验证码:秘钥)因为获取的数据格式比较杂乱,我们先使用最粗暴的方式,只保留中文和基本的标点符号,其他的数据全部都删除掉,使用ascii码的方法。原创 2023-08-20 07:12:45 · 136 阅读 · 0 评论 -
shell脚本
Linux操作系统里面的一门脚本语言:BASH SH CSH KSH…使用C语言写出来的一个脚本工具vim编辑器shell对于空格有非常严格的要求第一行:一定要写上脚本运行的命令所在的位置/bin/bash变量赋值:变量的声明和赋值是不能有任何空格的;所有的变量默认都是当成字符串保存的。变量名=值a=10变量的使用:${变量名}echo ${a}删除变量保存的内容:unset 变量名将变量变成只读的类型:readonly 变量名;原创 2023-06-27 12:26:51 · 140 阅读 · 0 评论 -
jvm 面试题
当Eden区没有足够的空间进行分配时,虚拟机会执行一次Minor GC.Minor GC通常发生在新生代的Eden区,在这个区的对象生存期短,往往发生GC的频率较高,回收速度比较快;Full Gc/Major GC 发生在老年代,一般情况下,触发老年代GC的时候不会触发Minor GC,但是通过配置,可以在Full GC之前进行一次Minor GC这样可以加快老年代的回收速度。java堆是所有线程所共享的一块内存,在虚拟机启动时创建,几乎所有的对象实例都在这里创建,因此该区域经常发生垃圾回收操作。原创 2023-08-14 12:49:44 · 89 阅读 · 0 评论 -
Python基础(操作数据库和爬虫)
python用来做什么?3.7获取不同的数据源里面的不同类型的数据;对数据本身进行处理;将数据存储到数据库中。编程语言:JAVA C脚本语言:python js rubyPython写代码的地方:pycharm eclipse vs nodepad++ editplus sublime idle …注释。原创 2023-06-27 12:22:12 · 303 阅读 · 0 评论 -
银行业务是指银行机构为个人和企业提供的各种金融服务。下面我将简要介绍个人业务、对公业务和资金业务,并提及与这些业务相关的数据源系统。
投资管理系统:用于管理银行的投资业务,包括投资组合管理、风险控制和收益计算等。- 衍生品交易系统:用于管理银行的衍生品交易业务,包括交易执行、风险管理和结算等。- 企业存款系统:用于处理企业存款业务,包括存款申请、利息计算和账户余额管理等。- 外汇交易系统:用于处理银行的外汇交易业务,包括外汇报价、交易确认和结算等。- 存款系统:用于处理个人存款业务,包括存款申请、利息计算和账户余额管理等。- 资金流动系统:用于记录银行的资金流入和流出情况,包括存款、贷款和投资等。原创 2023-08-09 12:19:44 · 700 阅读 · 0 评论 -
etl超时了,你怎么找到原因,是哪一块超时了
使用性能监控工具来监视ETL的运行情况,查看CPU、内存、磁盘和网络等资源的使用情况,是否存在瓶颈或异常。:仔细检查ETL代码,尤其是与数据提取、转换和加载相关的部分,查看是否存在低效或冗余的操作,优化代码。:考虑是否存在多个ETL流程同时运行,造成资源竞争和性能下降,适当调整ETL任务的调度策略或资源分配。:检查ETL的日志,查看是否有明显的错误或异常信息,例如连接超时、数据库死锁等,定位问题所在。:将ETL流程分块,记录每一步的运行时间,比较每一步的耗时,找出耗时较长的环节。原创 2023-07-18 14:56:07 · 314 阅读 · 0 评论 -
linux 基础
ip addr查看服务器的ip地址,查看ens33的条目,发现没有192.168.2.xx的ip地址,这是因为centos默认禁用了网卡,所以需要手动打开网卡。用文件大小 -size +100k -size -100k -size +1M -size -1M。可以给t1 t2表的ci_no添加索引信息,可以给时间和状态添加组合索引,为了避免索引失效,不要使用不等于,改成bal>0。30 * * * * 每小时的30分运行程序,例如10:30。原创 2023-06-27 12:18:35 · 167 阅读 · 0 评论 -
银行的业务系统
相关的表包括客户风险评估表、信用等级表等。相关的表包括客户联系表、客户投诉表等。相关的表包括贷款申请表、贷款审批表、贷款还款表等。相关的表包括资金流水表、资金结构表等。核心银行系统:负责处理银行的核心业务,如客户管理、账户管理、存款、贷款等。相关的表包括客户表、账户表、交易表等。相关的表包括报表模板表、报表数据表等。风险管理系统:用于管理银行的风险,包括信用风险、市场风险、操作风险等。相关的表包括风险评估表、风险预警表等。相关的表包括支付订单表、结算账户表等。相关的表包括资产配置表、投资组合表等。原创 2023-07-31 23:13:12 · 2716 阅读 · 0 评论 -
数据质量管理
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。数据质量管理的最终目标是改善,任何改善都是建立在评价的基础上。DIM层不能出现id空值,重复值;DWD层不能出现id空值,重复值;原创 2023-07-08 19:05:20 · 199 阅读 · 0 评论 -
数据质量怎么监控
8. 单次检测:如果(异常数据量)不在[数值下限, 数值上限], 则触发报警。某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内。5. 目标字段:第一步先正常统计条数;select count(9. SQL 结果:count(本表) - count(关联表)一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值。7. 第一步的值和第二步的值做减法,看是否在上下线阀值之内。) from 表 group by 某个字段。主要针对同步流程,监控两张表的数据量是否一致。原创 2023-07-08 10:28:22 · 287 阅读 · 0 评论 -
大数据项目组人员配置
事件主题:任何的资金的流动,都是一次事件,保存所有的资金的流动绩效主题:保存所有销售人员和销售团队的信息。L:load:删除所有的索引;核心系统、客户系统、财务系统、人力资源系统、结算系统、销售系统、第三。召开需求评审会议:产品人员主持、业务、开发、测试参与,讨论每个需求的。据的对比,如果这些列的数据一致,对其他的字段进行数据的更新,如果这些。列的数据不一致,那么就进行数据的新增。报表开发工程师:对数据库的数据,进行可视化界面的开发。方系统数据、人工的补录数据、埋点数据、日志信息等等。原创 2023-07-03 09:12:22 · 852 阅读 · 0 评论 -
大数据面试hive 看这一篇就够了(离线数仓 )
当 DataNode 突然挂掉了,客户端接收不到这个 DataNode 发送的 ack 确认,客户端会通知 NameNode,NameNode 检查该块的副本与规定的不符,NameNode 会通知 DataNode 去复制副本,并将挂掉的 DataNode 作下线处理,不再让它参与文件上传与下载。静态分区的分区值是自己设置的,动态分区的分区值是通过select查询出来的某个列的值,动态分区需要打开动态分区的开关和打开nostrict非严格模式的开关,效率比静态分区要低。原创 2023-07-03 08:38:56 · 1435 阅读 · 0 评论 -
关系型数据库面试看这篇就够了(MySQL ,Oracle)--传统数仓
使用分组和排序进行数据查询时,可以显著减少查询时分组和排序的时间·创建唯一索引,能够保证数据库表中每一行数据的唯一性在实现数据的参考完整性方面,可以加速表和表之间的连接。低级别的隔离级一般支持更高的并发处理,并拥有更低的系统开销。首先划分父分区,设置父分区的规则,然后在父分区中划分子分区的规则,这样可以在同时对两个列进行查询的时候,有效的减少查询需要消耗的资源和时间。–本地索引的话,在创建唯一索引的时候,在整个表中,可能会出现重复信息,在一个分区里面,值保证是唯一的,全局索引是整个表中,数据唯一存在。原创 2023-07-02 23:13:03 · 868 阅读 · 0 评论 -
1.11 Spark Core & SQL
通常在向 Spark 传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。1.公司一的数据分析师在做join的时候发生了数据倾斜,会导致有几百万用户的相关数据集中到了一台服务器上,几百万的用户数据,说大也不大,正常字段量的数据的话64G还是能轻松处理掉的。很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理,异常值的过滤等。原创 2023-06-25 14:43:31 · 475 阅读 · 0 评论 -
数仓浓缩及面试必备
例如现在有一个新的数据进来,这个数据的开始时间是现在时间,结束时间是2999-12-31的最大值,状态码给个1,如果这个数据的状态发生了变更,那么这个时候要新增一个数据,除了数据的新内容之外,开始时间是现在时间,结束时间是2999-12-31的最大值,状态码给个1,上一个这个数据的历史信息,结束时间要变成新数据的开始时间,状态码变成0。下面详细介绍这三层的设计。外部表一般都是存放比较大的文件和表格,例如日志信息表,埋点数据的表格,大的业务数据表,内容表一般就是存储计算之后的结果,存储业务指标的计算结果。原创 2023-06-26 10:44:46 · 320 阅读 · 1 评论
分享