- 博客(115)
- 资源 (8)
- 收藏
- 关注
原创 数据仓库岗面试
求用户连续登录3天,要讲出多种解法;将数据表行转列;求两数之和,除了哈希之外的其他解法;数仓分层具体可分为哪些层;ods到dwd层做了哪些处理?数据倾斜
2023-11-22 10:30:11 1514
原创 大数据研发工程师面试
AUC,ROC,准确率与召回率都是怎么计算的数据清洗是如何清洗的要做哪些清洗的工作什么是数据的完整性数仓是怎么设计的?linux查看进程的命令是什么如何查看具体某一行的内容(查看第n至m行)从浏览器输入网址到返回页面,中间发生了什么三次握手四次挥手HTTP和HTTPS的区别HDFS的理解?hadoop对put一个文件集群发生了什么hadoop数据如何存储?UDF函数有哪些工作原理是什么spark的driver和executor的理解python的垃圾回收机制深拷贝和浅拷贝是什么如何复制一个python对象
2023-11-16 11:30:37 477
原创 大数据开发面试(一)
本文所含面试题:Kafka和Flume的应用场景?LightGBM和XGBoost的使用场景有什么不一样?做ETL的时候遇到数据倾斜怎么处理?小文件呢?已知成绩表和学生表,查询各科成绩前三名的记录?Hive SQL优化性能的原则是什么?
2023-11-15 10:09:50 425
原创 大数据技术概述(三)——编程语言的选择
大数据编程一般会使用Java、Scala和Python等编程语言,Java、Scala、Python、SQL语言介绍
2023-08-23 10:26:41 1063
原创 大数据技术概述(二)——流处理
流处理基础概念,延迟和吞吐,窗口与时间,不同窗口模式,常见的窗口形式:滚动窗口、滑动窗口、会话窗口,时间语义,Event Time和Processing Time,Watermark,状态与检查点,数据一致性保障,At-Most-Once,At-Least-Once,Exactly-Once
2023-07-17 16:37:33 949
原创 Oracle——数据操纵DML(三)
通过运算修改单列值,通过表其他列修改单列值,通过外表的某列修改单列值,修改单行的多个列值,修改多行的多个列值
2023-07-14 16:47:37 827
原创 Oracle——数据操纵DML(二)
1、向表中插入多行数据 2、使用INSERT SELECT语句插入多行 3、通过输入修改单个列值 4、通过函数修改单个列值 5、修改数据为空值
2023-06-15 16:58:45 1097
原创 hive架构和原理以及与传统数据库的区别
什么是hive?为什么使用hive?hive的优缺点 hive架构和原理hive的架构 hive的工作原理 hive和Hadoop的关系 hive与传统型数据库的区别 hive和MySQL的比较
2022-12-22 08:00:00 1479 1
原创 Oracle PL/SQL——子查询
1.返回单行的子查询2.含有聚合函数的单行子查询3.多表查询中返回结果为单行的子查询4.用谓词`IN`实现多行子查询5.多表查询中使用IN谓词6.`EXISTS`子查询7.`EXISTE`替代单行子查询8.相关子查询9.含聚合函数的相关子查询10.带IN谓词的相关子查询11.包含分组的相关子查询12.带ANY的子查询13.带ALL的子查询14.嵌套子查询15.FROM子句后的子查询16.SELECT子句后的查询17.HAVING子句后的子查询18.子查询返回值为空
2022-12-20 08:00:00 1358
原创 Oracle PL/SQL——高级查询
1.使用`GROUP BY`子句实现分组2.按条件查询并分组3.使用`CUBE`汇总数据4.使用`ROLLUP`汇总数据5.用`GROUPING`函数区分NULL值6.使用`HAVING`子句过滤分组7.使用`ORDER BY`子句排序8.对查询进行集合运算9.无条件多表查询10.有共同字段的表等值连接11.有共同字段的表非等值12.两个表进行内连接13.一个表进行自连接14.两个表进行左外连接15.两表进行右外连接16.两个表进行全外连接
2022-12-17 08:00:00 1305
原创 Oracle PL/SQL——日期时间函数的运用
Oracle案例——时间函数 日期函数的运用1.日期运算2.日期格式化输出3.提取日期特定部分4.数据类型转化5.提取日期的星期值6.提取一年中的第几天7.计算时间差8.获取某月的第一天与最后一天
2022-12-15 08:00:00 5263
原创 数据查询中函数的使用
1使用count函数统计表中的记录数 2使用SUM函数求和 3 使用AVG函数求平均值 4返回最大值 5返回最小值 6查找并替换字符串 7获取字符的ASCII码 8返回字符串长度 9使用ROUND函数确定精度 10NVL函数的使用
2022-12-10 08:00:00 820
原创 Oracle数据库编程——数据查询
1.根据查询结果创建和复制表2.返回表中的前N行记录3.消除重复行4.NULL值的判定5.查询字段为某个范围内的记录6.返回字段值为列表中某个值的记录7.条件组合查询8.复合条件查询9.实现模糊查询10.使用ESCAPE和转义符
2022-12-09 08:00:00 632
原创 数据仓库规范建设指南
稳定业务按照标准的数据流向进行开发,即ODS-> DWD-> DWS-> APP。非稳定业务或探索性需求,可以遵循ODS-> DWD->APP或者ODS-> DWD-> DWM-> APP 两个模型数据流。在保证了数据链路的合理性之后,也必须保证模型分层引用原则:需统一规定不同的数据的类型,严格按照规定的数据类型执行:宽表的冗余字段要确保:保证主题域内,指标口径一致,无歧义。通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生。新增数据,增量数据是上一次导出之后的新数据。
2022-12-08 08:00:00 515
原创 面试公司ETL工程师(实习生)——笔试面试题(SQL)
查出“张三”的购买清单。统计“张三”每个月的购买金额。统计每个人在每个平台下的购买总次数和购买总金额。查出在“京东”买过东西的人,在所有电商平台的购买清单。统计“天猫”购买的前2名,按每个人的购买总金额排名。统计“张三”每个月的购买金额,每个月比上个月多花多少钱。统计每个人的消费情况,按以下结果显示,消费总额大于1000为星级客户。写出你知道的sql优化方法。引擎优化、索引优化、读写分离、limit、避免select *
2022-12-07 08:00:00 766
原创 MySQL经典案例50题
建表、插入数据题目、查询"01"课程比"02"课程成绩高的学生的信息及课程分数、查询"01"课程比"02"课程成绩低的学生的信息及课程分数、查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩、查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩(包括有成绩的和无成绩的)、查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩、查询"李"姓老师的数量、查询学过"张三"老师授课的同学的信息
2022-12-06 16:59:39 8881 3
原创 数据治理以及质量建设
数据治理以及质量建设的范围很广,包含数据本身的管理、数据安全、数据成本、元数据管理、数据建模等。为什么要做数据治理?数据治理的方式:规范治理、架构治理、元数据治理、安全治理。为什么要做数据治理建设?数据质量要求、数据质量管理流程:数据资产等级划分、数据加工过程卡点校验。数据处理风险监控
2022-11-29 08:00:00 890
原创 离线数据仓库建设
数据仓库的核心是展现层和提供优质的服务。ETL及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓分层、数仓建模、维度建模模式、维度建模详解、维度建模过程、数仓建设实战、ETL过程
2022-11-24 08:00:00 555
原创 Oracle数据库实例——操作数据表结构
Oracle数据库之操作数据表结构:使用ALTER TABLE命令增加新字段、修改字段、删除字段、RENAME重命名基本表,CREATE TABLE ... AS ...复制相同表结构,使用DROP TABLE删除表,创建主键约束,删除约束
2022-11-23 08:00:00 258
原创 数据库的三级模式和二级映像
数据库的模式(Schema)是对现实世界的抽象,是对数据库中全体数据的逻辑结构和特征的描述。模式反映的是数据与结构及其联系,数据库系统在其内具有三级模式和二级映像。三级模式分为外模式、模式、内模式,二级映像则是外模式/模式映像和模式/内模式映像。
2022-11-22 08:00:00 769
原创 如何完全、干净地卸载Oracle 11g数据库?
Oracle 11g的卸载过程分为停掉服务、卸载Oracle产品、删除注册表项、删除环境变量和重启计算机5个步骤。
2022-11-21 08:00:00 13259
原创 Oracle数据库简介
本篇通过Oracle与SQL Server的对比,讲解了Oracle和SQL Server各自的特点及使用范围;接着讲了Oracle 11g的一些新特性,比如数据库管理方面的数据库重放、SQL计划管理、自动存储管理等特性。
2022-11-20 22:01:41 644
原创 大数据常见面试题
spark支持三种自定义函数,UDF、UDAF(用户自定义聚合函数)、UDTF(用户自定义生成函数)UDAF和UDTF都需要继承对应的自定义函数类,实现相应的抽象方法才可以使用UDF则可以在spark.udf.register方法中使用函数直接注册使用。hive通过设置开启动态分区。可以在插入数据时根据表中某字段值决定分区,当分区字段完全由变量决定时称为动态分区,若有常量限制则称为混合分区,若完全由常量决定分区时称为静态分区。自定义分区器。
2022-09-27 08:10:48 847
原创 猿创征文|大数据bug笔记之利用Hudi将数据落地到HDFS
利用hudi落地数据到HDFS,报错详细:Cannot create hive connection jdbc:hive2://IP:10000Required field 'serverProtocolVersion' is unset! org.apache.hadoop.security.AccessControlException: Permission denied: user=hive, access=EXECUTE, inode="/tmp":root:supergroup:dr--r--r
2022-09-09 21:42:12 701
原创 猿创征文|大数据之离线数据处理总结+思维导图(全面总结)
大数据离线数据处理总结Linux常用命令Hadoopzookeeper分布式协调框架yarn资源调度框架mapreduce分布式离线计算引擎Scala语言spark分析计算引擎hive数据根系工具sqoop数据导入导出工具flume数据采集工具azkaban分布式任务调度工具综合项目离线数仓分析项目
2022-09-03 21:07:23 1336
原创 大数据bug 笔记之Azkaban web-server节点启动问题
大数据bug笔记之Azkaban问题发现azkaban web-server 节点不能启动问题。azkaban安装完成后,启动服务exec-server与web-server,jps发现web-server的节点没起来。解决问题首先,检查配置文件,看文件是否有差错;如果没有,第二步执行start-web.sh shell脚本文件,再进入到azkaban/web-server目录下查看webServerLog日志;如果没有日志,则进入azkaban/web-server/bin目录,bin目录下
2022-09-02 00:30:44 1852
原创 猿创征文|大数据之离线数仓各工具常用命令
近期学习大数据离线数仓,接触到了许多处理数据的应用及工具:Hadoop、hive、sqoop、azkaban、flume、datax、superset、zookeeper、Kafka、redis等,做项目需要开启节点、启动服务,结束关掉服务节点等操作,这里将我常用的进行总结,后期接触更多则继续在这里更新#离线数仓各工具常用命令及操作!
2022-09-01 23:05:34 550
原创 猿创征文|大数据之Kafka简介+基操
Kafka指的就是消息队列,也叫消息中间件,主要是做数据的传输使用,对接生产者和消费者两端数据信息,然后获取数据保存数据,将数据按照管道进行传输。Kafka什么是消息队列?Kafka简介三大特点核心概念 Kafka 的基本操作topic的操作创建topic查看topic的列表查看每一个topic的信息修改一个topic删除一个topic列举所有topic生产数据消费数据kafka的数据消费总结...
2022-08-31 00:15:12 367 1
原创 猿创征文|大数据之Sqoop数据导入操作
Sqoop命令执行常见命令执行参数通过文件传递参数连接数据库查看所有表将数据导入HDFS指定表导入指定列导入指定条件导入指定sql导入将数据导入到Hive导入填充空值数据**Sqoop**,一个用于Hadoop和结构化数据存储之间进行高效传输大批量数据的工具:将数据从关系型数据库管理系统导入到Hadoop系统中将数据从Hadoop系统中抽取并导出到关系型数据库。Sqoop的核心设计思想是利用Map Reduce加快数据传输速度。Sqoop的重要关键词import export......
2022-08-27 22:16:01 781
原创 猿创征文|成功解决虚拟机彼此之间免密登录问题:connect to host xxxxxx port 22: Connection timed out
虚拟机之间免密登录出错 connect to host xxxxxx port 22: Connection timed outconnect to host 主机名 port 22: Connection refusedping ip,ssh ip地址连接时出现ECDSA key密钥对不同ssh-keygen -t rsa` 生成公钥和私钥`ssh-copy-id 主机名` 将公钥拷贝到本机以及其他虚拟机SSH简介SSH 为 Secure Shell 的缩写,由 IETF 的网络小组所制定......
2022-08-27 17:31:40 2069
原创 数据仓库基础
数据仓库基础数据仓库概念数仓特性数仓架构数据集市架构Inmon企业信息工厂架构kimball数据仓库架构混合型数据仓库架构为什么要数据仓库进行分层数仓常见术语解析数据集市数仓名词之间的关系指标与标签区别数据集市和数据仓库的关系数据仓库与数据库的区别
2022-08-22 22:37:15 696
原创 MySQL权限与安全管理之权限表与账户管理
MySQL用户可以分为root用户和普通用户。root用户是超级管理员,拥有所有权限,包括创建用户,删除用户和修改用户的密码等管理权限;普通用户只拥有被授予的MySQL权限表与账户管理:user表连接到服务器的账号信息,里面的权限是全局级的db表存储用户对数据库的操作权限,登录和退出MySQL服务器命令及常用参数,使用CREATE USER语句创建新用户直接操作MySQL用户表删除普通用户使用DROP USER语句删除用户root用户修改自己的密码执行`FLUSH PRIVILEGES`语句重新加载用户权限
2022-08-20 20:53:17 2184
原创 Scala编程基础——集合&高阶函数
Scala编程基础之集合于高阶函数,主要内容包括:数组(定长与变长数组,遍历数组,元素处理,数组的常用方法)、元组(创建访问元组,元组遍历,zip拉链操作)、映射、列表(list的高阶方法)、set以及集合的重要函数、柯里化...
2022-08-07 17:24:30 371
幸福指数报告数据分析聚类数据集
2022-05-11
牛油果数据分析聚类数据集
2022-05-11
2021 年“泰迪杯”数据分析技能赛B 题+肥料登记数据分析数据集
2022-04-26
2021年“泰迪杯”数据分析技能赛A题+“非洲通讯产品销售数据”数据集
2022-04-26
Java jdk api 1.8_google.CHM JDK API 1.8谷歌翻译中文版在线参考手册
2022-04-25
python全面学习资料
2022-04-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人