自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Chlin.Rei的博客

记录学习!

  • 博客(115)
  • 资源 (8)
  • 收藏
  • 关注

原创 数据仓库岗面试

求用户连续登录3天,要讲出多种解法;将数据表行转列;求两数之和,除了哈希之外的其他解法;数仓分层具体可分为哪些层;ods到dwd层做了哪些处理?数据倾斜

2023-11-22 10:30:11 1501

原创 大数据研发工程师面试

AUC,ROC,准确率与召回率都是怎么计算的数据清洗是如何清洗的要做哪些清洗的工作什么是数据的完整性数仓是怎么设计的?linux查看进程的命令是什么如何查看具体某一行的内容(查看第n至m行)从浏览器输入网址到返回页面,中间发生了什么三次握手四次挥手HTTP和HTTPS的区别HDFS的理解?hadoop对put一个文件集群发生了什么hadoop数据如何存储?UDF函数有哪些工作原理是什么spark的driver和executor的理解python的垃圾回收机制深拷贝和浅拷贝是什么如何复制一个python对象

2023-11-16 11:30:37 463

原创 大数据开发面试(一)

本文所含面试题:Kafka和Flume的应用场景?LightGBM和XGBoost的使用场景有什么不一样?做ETL的时候遇到数据倾斜怎么处理?小文件呢?已知成绩表和学生表,查询各科成绩前三名的记录?Hive SQL优化性能的原则是什么?

2023-11-15 10:09:50 406

原创 Kettle——大数据ETL工具

kettle概念组件介绍,kettle下载安装以及简单使用。

2023-09-13 14:52:03 5189

原创 大数据技术概述(三)——编程语言的选择

大数据编程一般会使用Java、Scala和Python等编程语言,Java、Scala、Python、SQL语言介绍

2023-08-23 10:26:41 1047

原创 Hadoop安装完全分布式搭建

Hadoop安装和完全分布式搭建、搭建完成案例演示worldcount

2023-08-11 10:18:13 271

原创 JDK安装配置(Linux)

【代码】JDK安装配置(Linux)

2023-08-10 16:32:21 96

原创 大数据技术概述(二)——流处理

流处理基础概念,延迟和吞吐,窗口与时间,不同窗口模式,常见的窗口形式:滚动窗口、滑动窗口、会话窗口,时间语义,Event Time和Processing Time,Watermark,状态与检查点,数据一致性保障,At-Most-Once,At-Least-Once,Exactly-Once

2023-07-17 16:37:33 758

原创 Oracle——数据操作DML(四)

删除单行数据、删除多行数据、删除所有行、使用TRUNCATE命令清空表

2023-07-17 14:18:24 760

原创 Oracle——数据操纵DML(三)

通过运算修改单列值,通过表其他列修改单列值,通过外表的某列修改单列值,修改单行的多个列值,修改多行的多个列值

2023-07-14 16:47:37 766

原创 大数据技术概述(一)

大数据的特点、大数据分而治之的处理思想。流处理和批处理的区别。流处理的基础概念。流处理框架的技术更迭和架构演进。

2023-07-13 14:42:27 368

原创 Oracle——数据操纵DML(二)

1、向表中插入多行数据 2、使用INSERT SELECT语句插入多行 3、通过输入修改单个列值 4、通过函数修改单个列值 5、修改数据为空值

2023-06-15 16:58:45 1068

原创 Oracle——数据操纵DML(一)

数据操纵DML——字段插入

2023-05-28 17:30:04 864

原创 hive架构和原理以及与传统数据库的区别

什么是hive?为什么使用hive?hive的优缺点 hive架构和原理hive的架构 hive的工作原理 hive和Hadoop的关系 hive与传统型数据库的区别 hive和MySQL的比较

2022-12-22 08:00:00 1447 1

原创 Oracle PL/SQL——子查询

1.返回单行的子查询2.含有聚合函数的单行子查询3.多表查询中返回结果为单行的子查询4.用谓词`IN`实现多行子查询5.多表查询中使用IN谓词6.`EXISTS`子查询7.`EXISTE`替代单行子查询8.相关子查询9.含聚合函数的相关子查询10.带IN谓词的相关子查询11.包含分组的相关子查询12.带ANY的子查询13.带ALL的子查询14.嵌套子查询15.FROM子句后的子查询16.SELECT子句后的查询17.HAVING子句后的子查询18.子查询返回值为空

2022-12-20 08:00:00 1331

原创 Oracle PL/SQL——高级查询

1.使用`GROUP BY`子句实现分组2.按条件查询并分组3.使用`CUBE`汇总数据4.使用`ROLLUP`汇总数据5.用`GROUPING`函数区分NULL值6.使用`HAVING`子句过滤分组7.使用`ORDER BY`子句排序8.对查询进行集合运算9.无条件多表查询10.有共同字段的表等值连接11.有共同字段的表非等值12.两个表进行内连接13.一个表进行自连接14.两个表进行左外连接15.两表进行右外连接16.两个表进行全外连接

2022-12-17 08:00:00 1287

原创 Oracle PL/SQL——日期时间函数的运用

Oracle案例——时间函数 日期函数的运用1.日期运算2.日期格式化输出3.提取日期特定部分4.数据类型转化5.提取日期的星期值6.提取一年中的第几天7.计算时间差8.获取某月的第一天与最后一天

2022-12-15 08:00:00 5141

原创 Scala——wordcount案例

Scala版本的wordcount案例。

2022-12-14 14:04:13 231

原创 数据查询中函数的使用

1使用count函数统计表中的记录数 2使用SUM函数求和 3 使用AVG函数求平均值 4返回最大值 5返回最小值 6查找并替换字符串 7获取字符的ASCII码 8返回字符串长度 9使用ROUND函数确定精度 10NVL函数的使用

2022-12-10 08:00:00 784

原创 Oracle数据库编程——数据查询

1.根据查询结果创建和复制表2.返回表中的前N行记录3.消除重复行4.NULL值的判定5.查询字段为某个范围内的记录6.返回字段值为列表中某个值的记录7.条件组合查询8.复合条件查询9.实现模糊查询10.使用ESCAPE和转义符

2022-12-09 08:00:00 581

原创 数据仓库规范建设指南

稳定业务按照标准的数据流向进行开发,即ODS-> DWD-> DWS-> APP。非稳定业务或探索性需求,可以遵循ODS-> DWD->APP或者ODS-> DWD-> DWM-> APP 两个模型数据流。在保证了数据链路的合理性之后,也必须保证模型分层引用原则:需统一规定不同的数据的类型,严格按照规定的数据类型执行:宽表的冗余字段要确保:保证主题域内,指标口径一致,无歧义。通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生。新增数据,增量数据是上一次导出之后的新数据。

2022-12-08 08:00:00 468

原创 面试公司ETL工程师(实习生)——笔试面试题(SQL)

查出“张三”的购买清单。统计“张三”每个月的购买金额。统计每个人在每个平台下的购买总次数和购买总金额。查出在“京东”买过东西的人,在所有电商平台的购买清单。统计“天猫”购买的前2名,按每个人的购买总金额排名。统计“张三”每个月的购买金额,每个月比上个月多花多少钱。统计每个人的消费情况,按以下结果显示,消费总额大于1000为星级客户。写出你知道的sql优化方法。引擎优化、索引优化、读写分离、limit、避免select *

2022-12-07 08:00:00 722

原创 MySQL经典案例50题

建表、插入数据题目、查询"01"课程比"02"课程成绩高的学生的信息及课程分数、查询"01"课程比"02"课程成绩低的学生的信息及课程分数、查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩、查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩(包括有成绩的和无成绩的)、查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩、查询"李"姓老师的数量、查询学过"张三"老师授课的同学的信息

2022-12-06 16:59:39 8765 3

原创 数据治理以及质量建设

数据治理以及质量建设的范围很广,包含数据本身的管理、数据安全、数据成本、元数据管理、数据建模等。为什么要做数据治理?数据治理的方式:规范治理、架构治理、元数据治理、安全治理。为什么要做数据治理建设?数据质量要求、数据质量管理流程:数据资产等级划分、数据加工过程卡点校验。数据处理风险监控

2022-11-29 08:00:00 870

原创 离线数据仓库建设

数据仓库的核心是展现层和提供优质的服务。ETL及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓分层、数仓建模、维度建模模式、维度建模详解、维度建模过程、数仓建设实战、ETL过程

2022-11-24 08:00:00 545

原创 Oracle数据库实例——操作数据表结构

Oracle数据库之操作数据表结构:使用ALTER TABLE命令增加新字段、修改字段、删除字段、RENAME重命名基本表,CREATE TABLE ... AS ...复制相同表结构,使用DROP TABLE删除表,创建主键约束,删除约束

2022-11-23 08:00:00 245

原创 数据库的三级模式和二级映像

数据库的模式(Schema)是对现实世界的抽象,是对数据库中全体数据的逻辑结构和特征的描述。模式反映的是数据与结构及其联系,数据库系统在其内具有三级模式和二级映像。三级模式分为外模式、模式、内模式,二级映像则是外模式/模式映像和模式/内模式映像。

2022-11-22 08:00:00 730

原创 如何完全、干净地卸载Oracle 11g数据库?

Oracle 11g的卸载过程分为停掉服务、卸载Oracle产品、删除注册表项、删除环境变量和重启计算机5个步骤。

2022-11-21 08:00:00 12842

原创 Oracle数据库简介

本篇通过Oracle与SQL Server的对比,讲解了Oracle和SQL Server各自的特点及使用范围;接着讲了Oracle 11g的一些新特性,比如数据库管理方面的数据库重放、SQL计划管理、自动存储管理等特性。

2022-11-20 22:01:41 610

原创 大数据常见面试题

spark支持三种自定义函数,UDF、UDAF(用户自定义聚合函数)、UDTF(用户自定义生成函数)UDAF和UDTF都需要继承对应的自定义函数类,实现相应的抽象方法才可以使用UDF则可以在spark.udf.register方法中使用函数直接注册使用。hive通过设置开启动态分区。可以在插入数据时根据表中某字段值决定分区,当分区字段完全由变量决定时称为动态分区,若有常量限制则称为混合分区,若完全由常量决定分区时称为静态分区。自定义分区器。

2022-09-27 08:10:48 789

原创 猿创征文|大数据bug笔记之利用Hudi将数据落地到HDFS

利用hudi落地数据到HDFS,报错详细:Cannot create hive connection jdbc:hive2://IP:10000Required field 'serverProtocolVersion' is unset! org.apache.hadoop.security.AccessControlException: Permission denied: user=hive, access=EXECUTE, inode="/tmp":root:supergroup:dr--r--r

2022-09-09 21:42:12 687

原创 猿创征文|大数据之离线数据处理总结+思维导图(全面总结)

大数据离线数据处理总结Linux常用命令Hadoopzookeeper分布式协调框架yarn资源调度框架mapreduce分布式离线计算引擎Scala语言spark分析计算引擎hive数据根系工具sqoop数据导入导出工具flume数据采集工具azkaban分布式任务调度工具综合项目离线数仓分析项目

2022-09-03 21:07:23 1299

原创 大数据bug 笔记之Azkaban web-server节点启动问题

大数据bug笔记之Azkaban问题发现azkaban web-server 节点不能启动问题。azkaban安装完成后,启动服务exec-server与web-server,jps发现web-server的节点没起来。解决问题首先,检查配置文件,看文件是否有差错;如果没有,第二步执行start-web.sh shell脚本文件,再进入到azkaban/web-server目录下查看webServerLog日志;如果没有日志,则进入azkaban/web-server/bin目录,bin目录下

2022-09-02 00:30:44 1813

原创 猿创征文|大数据之离线数仓各工具常用命令

近期学习大数据离线数仓,接触到了许多处理数据的应用及工具:Hadoop、hive、sqoop、azkaban、flume、datax、superset、zookeeper、Kafka、redis等,做项目需要开启节点、启动服务,结束关掉服务节点等操作,这里将我常用的进行总结,后期接触更多则继续在这里更新#离线数仓各工具常用命令及操作!

2022-09-01 23:05:34 518

原创 猿创征文|大数据之Kafka简介+基操

Kafka指的就是消息队列,也叫消息中间件,主要是做数据的传输使用,对接生产者和消费者两端数据信息,然后获取数据保存数据,将数据按照管道进行传输。Kafka什么是消息队列?Kafka简介三大特点核心概念 Kafka 的基本操作topic的操作创建topic查看topic的列表查看每一个topic的信息修改一个topic删除一个topic列举所有topic生产数据消费数据kafka的数据消费总结...

2022-08-31 00:15:12 338 1

原创 猿创征文|大数据之Sqoop数据导入操作

Sqoop命令执行常见命令执行参数通过文件传递参数连接数据库查看所有表将数据导入HDFS指定表导入指定列导入指定条件导入指定sql导入将数据导入到Hive导入填充空值数据**Sqoop**,一个用于Hadoop和结构化数据存储之间进行高效传输大批量数据的工具:将数据从关系型数据库管理系统导入到Hadoop系统中将数据从Hadoop系统中抽取并导出到关系型数据库。Sqoop的核心设计思想是利用Map Reduce加快数据传输速度。Sqoop的重要关键词import export......

2022-08-27 22:16:01 752

原创 猿创征文|成功解决虚拟机彼此之间免密登录问题:connect to host xxxxxx port 22: Connection timed out

虚拟机之间免密登录出错 connect to host xxxxxx port 22: Connection timed outconnect to host 主机名 port 22: Connection refusedping ip,ssh ip地址连接时出现ECDSA key密钥对不同ssh-keygen -t rsa` 生成公钥和私钥`ssh-copy-id 主机名` 将公钥拷贝到本机以及其他虚拟机SSH简介SSH 为 Secure Shell 的缩写,由 IETF 的网络小组所制定......

2022-08-27 17:31:40 2033

原创 数据仓库基础

数据仓库基础数据仓库概念数仓特性数仓架构数据集市架构Inmon企业信息工厂架构kimball数据仓库架构混合型数据仓库架构为什么要数据仓库进行分层数仓常见术语解析数据集市数仓名词之间的关系指标与标签区别数据集市和数据仓库的关系数据仓库与数据库的区别

2022-08-22 22:37:15 688

原创 MySQL权限与安全管理之权限表与账户管理

MySQL用户可以分为root用户和普通用户。root用户是超级管理员,拥有所有权限,包括创建用户,删除用户和修改用户的密码等管理权限;普通用户只拥有被授予的MySQL权限表与账户管理:user表连接到服务器的账号信息,里面的权限是全局级的db表存储用户对数据库的操作权限,登录和退出MySQL服务器命令及常用参数,使用CREATE USER语句创建新用户直接操作MySQL用户表删除普通用户使用DROP USER语句删除用户root用户修改自己的密码执行`FLUSH PRIVILEGES`语句重新加载用户权限

2022-08-20 20:53:17 2008

原创 Scala编程基础——集合&高阶函数

Scala编程基础之集合于高阶函数,主要内容包括:数组(定长与变长数组,遍历数组,元素处理,数组的常用方法)、元组(创建访问元组,元组遍历,zip拉链操作)、映射、列表(list的高阶方法)、set以及集合的重要函数、柯里化...

2022-08-07 17:24:30 350

地摊经济数据集分析 – 分词+聚类+词云

地摊经济数据集分析 – 分词+聚类+词云

2023-03-25

幸福指数报告数据分析聚类数据集

《 2020年报告》首次通过主观幸福感对全球城市进行排名,并更深入地探讨了社会,城市和自然环境如何结合在一起影响我们的幸福。幸福分数和排名使用盖洛普世界民意调查的数据。分数基于对民意调查中提出的主要生活评估问题的答案。分数来自2015-2020年全国代表性的样本,并使用盖洛普权重使估算值具有代表性。幸福评分后面的各栏估算了六个因素(经济生产,社会支持,预期寿命,自由,没有腐败和慷慨)中每个因素在何种程度上有助于使每个国家的生活评价高于反乌托邦,一个假设的国家,其六个因素的价值均等于世界最低的国家平均值。

2022-05-11

牛油果数据分析聚类数据集

在如今的大数据时代里,要找到这样一个城市并不难,只要获取到了足够的牛油果销量数据,就可以用简单的方式发现其内在价值,这是值得探讨的。为此提出了用数据分析获取低价优质的牛油果的城市

2022-05-11

2021 年“泰迪杯”数据分析技能赛B 题+肥料登记数据分析数据集

2021 年“泰迪杯”数据分析技能赛B 题+肥料登记数据分析数据集 附件 1 的产品通用名称存在不规范的情况。附件 2 中筛选出复混肥料的产品,将所有复混肥料按照总无机养分百分比的取值等距分为 10 组。 附件 3 中提取产品登记数量大于 10 的肥料企业,给出这些企业所用到的原料集合(发酵菌剂除外)。附件 4 技术指标中提取出氮、磷、钾养分和有机质的百分比,以及肥料含氯的程度。

2022-04-26

2021年“泰迪杯”数据分析技能赛A题+“非洲通讯产品销售数据”数据集

2021年“泰迪杯”数据分析技能赛A题+“非洲通讯产品销售数据”数据集 进入本世纪以来,我国通讯产品得到了飞速发展,其技术先进,价格便宜, 深受世界各国和地区尤其是非洲国家的欢迎。某通讯公司在非洲的多个国家深耕 多年,产品与服务遍布整个非洲大陆。为了更好地了解公司的销售情况,采用产 品的销售额和利润数据,对其盈利能力进行分析和预测,给决策人员提供分析报 告,以便为非洲各国提供更好的产品销售策略和服务。

2022-04-26

全国等级考试二级C语言考点复习

全国等级考试二级C语言考点复习,包含考点点拨、真题举例、细节分析,知识点全面。

2022-04-25

Java jdk api 1.8_google.CHM JDK API 1.8谷歌翻译中文版在线参考手册

Java jdk api 1.8_google.CHM JDK API 1.8谷歌翻译中文版在线参考手册,附加使用说明,无需安装,下载直接使用,方便快捷。

2022-04-25

python36动态链接库

python36动态链接库 解决程序无法连接动态链接库问题

2022-04-24

python全面学习资料

资料包含python开发软件安装教程、python基础核心知识--列表、if判断+序列类型、循环和函数、爬虫+自动化办公、python爬虫+数据分析、python人工智能--图像识别项目。

2022-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除