自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Chlin.Rei的博客

记录学习!

  • 博客(102)
  • 资源 (8)
  • 收藏
  • 关注

原创 hive架构和原理以及与传统数据库的区别

什么是hive?为什么使用hive?hive的优缺点 hive架构和原理hive的架构 hive的工作原理 hive和Hadoop的关系 hive与传统型数据库的区别 hive和MySQL的比较

2022-12-22 08:00:00 451

原创 Oracle PL/SQL——子查询

1.返回单行的子查询2.含有聚合函数的单行子查询3.多表查询中返回结果为单行的子查询4.用谓词`IN`实现多行子查询5.多表查询中使用IN谓词6.`EXISTS`子查询7.`EXISTE`替代单行子查询8.相关子查询9.含聚合函数的相关子查询10.带IN谓词的相关子查询11.包含分组的相关子查询12.带ANY的子查询13.带ALL的子查询14.嵌套子查询15.FROM子句后的子查询16.SELECT子句后的查询17.HAVING子句后的子查询18.子查询返回值为空

2022-12-20 08:00:00 294

原创 Oracle PL/SQL——高级查询

1.使用`GROUP BY`子句实现分组2.按条件查询并分组3.使用`CUBE`汇总数据4.使用`ROLLUP`汇总数据5.用`GROUPING`函数区分NULL值6.使用`HAVING`子句过滤分组7.使用`ORDER BY`子句排序8.对查询进行集合运算9.无条件多表查询10.有共同字段的表等值连接11.有共同字段的表非等值12.两个表进行内连接13.一个表进行自连接14.两个表进行左外连接15.两表进行右外连接16.两个表进行全外连接

2022-12-17 08:00:00 567

原创 Oracle PL/SQL——日期时间函数的运用

Oracle案例——时间函数 日期函数的运用1.日期运算2.日期格式化输出3.提取日期特定部分4.数据类型转化5.提取日期的星期值6.提取一年中的第几天7.计算时间差8.获取某月的第一天与最后一天

2022-12-15 08:00:00 183

原创 Scala——wordcount案例

Scala版本的wordcount案例。

2022-12-14 14:04:13 29

原创 数据查询中函数的使用

1使用count函数统计表中的记录数 2使用SUM函数求和 3 使用AVG函数求平均值 4返回最大值 5返回最小值 6查找并替换字符串 7获取字符的ASCII码 8返回字符串长度 9使用ROUND函数确定精度 10NVL函数的使用

2022-12-10 08:00:00 575

原创 Oracle数据库编程——数据查询

1.根据查询结果创建和复制表2.返回表中的前N行记录3.消除重复行4.NULL值的判定5.查询字段为某个范围内的记录6.返回字段值为列表中某个值的记录7.条件组合查询8.复合条件查询9.实现模糊查询10.使用ESCAPE和转义符

2022-12-09 08:00:00 288

原创 数据仓库规范建设指南

稳定业务按照标准的数据流向进行开发,即ODS-> DWD-> DWS-> APP。非稳定业务或探索性需求,可以遵循ODS-> DWD->APP或者ODS-> DWD-> DWM-> APP 两个模型数据流。在保证了数据链路的合理性之后,也必须保证模型分层引用原则:需统一规定不同的数据的类型,严格按照规定的数据类型执行:宽表的冗余字段要确保:保证主题域内,指标口径一致,无歧义。通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生。新增数据,增量数据是上一次导出之后的新数据。

2022-12-08 08:00:00 190

原创 面试公司ETL工程师(实习生)——笔试面试题(SQL)

查出“张三”的购买清单。统计“张三”每个月的购买金额。统计每个人在每个平台下的购买总次数和购买总金额。查出在“京东”买过东西的人,在所有电商平台的购买清单。统计“天猫”购买的前2名,按每个人的购买总金额排名。统计“张三”每个月的购买金额,每个月比上个月多花多少钱。统计每个人的消费情况,按以下结果显示,消费总额大于1000为星级客户。写出你知道的sql优化方法。引擎优化、索引优化、读写分离、limit、避免select *

2022-12-07 08:00:00 195

原创 MySQL经典案例50题

建表、插入数据题目、查询"01"课程比"02"课程成绩高的学生的信息及课程分数、查询"01"课程比"02"课程成绩低的学生的信息及课程分数、查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩、查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩(包括有成绩的和无成绩的)、查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩、查询"李"姓老师的数量、查询学过"张三"老师授课的同学的信息

2022-12-06 16:59:39 7302

原创 数据治理以及质量建设

数据治理以及质量建设的范围很广,包含数据本身的管理、数据安全、数据成本、元数据管理、数据建模等。为什么要做数据治理?数据治理的方式:规范治理、架构治理、元数据治理、安全治理。为什么要做数据治理建设?数据质量要求、数据质量管理流程:数据资产等级划分、数据加工过程卡点校验。数据处理风险监控

2022-11-29 08:00:00 223

原创 离线数据仓库建设

数据仓库的核心是展现层和提供优质的服务。ETL及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓分层、数仓建模、维度建模模式、维度建模详解、维度建模过程、数仓建设实战、ETL过程

2022-11-24 08:00:00 270

原创 Oracle数据库实例——操作数据表结构

Oracle数据库之操作数据表结构:使用ALTER TABLE命令增加新字段、修改字段、删除字段、RENAME重命名基本表,CREATE TABLE ... AS ...复制相同表结构,使用DROP TABLE删除表,创建主键约束,删除约束

2022-11-23 08:00:00 39

原创 数据库的三级模式和二级映像

数据库的模式(Schema)是对现实世界的抽象,是对数据库中全体数据的逻辑结构和特征的描述。模式反映的是数据与结构及其联系,数据库系统在其内具有三级模式和二级映像。三级模式分为外模式、模式、内模式,二级映像则是外模式/模式映像和模式/内模式映像。

2022-11-22 08:00:00 153

原创 如何完全、干净地卸载Oracle 11g数据库?

Oracle 11g的卸载过程分为停掉服务、卸载Oracle产品、删除注册表项、删除环境变量和重启计算机5个步骤。

2022-11-21 08:00:00 274

原创 Oracle数据库简介

本篇通过Oracle与SQL Server的对比,讲解了Oracle和SQL Server各自的特点及使用范围;接着讲了Oracle 11g的一些新特性,比如数据库管理方面的数据库重放、SQL计划管理、自动存储管理等特性。

2022-11-20 22:01:41 265

原创 大数据常见面试题

spark支持三种自定义函数,UDF、UDAF(用户自定义聚合函数)、UDTF(用户自定义生成函数)UDAF和UDTF都需要继承对应的自定义函数类,实现相应的抽象方法才可以使用UDF则可以在spark.udf.register方法中使用函数直接注册使用。hive通过设置开启动态分区。可以在插入数据时根据表中某字段值决定分区,当分区字段完全由变量决定时称为动态分区,若有常量限制则称为混合分区,若完全由常量决定分区时称为静态分区。自定义分区器。

2022-09-27 08:10:48 216

原创 猿创征文|大数据bug笔记之利用Hudi将数据落地到HDFS

利用hudi落地数据到HDFS,报错详细:Cannot create hive connection jdbc:hive2://IP:10000Required field 'serverProtocolVersion' is unset! org.apache.hadoop.security.AccessControlException: Permission denied: user=hive, access=EXECUTE, inode="/tmp":root:supergroup:dr--r--r

2022-09-09 21:42:12 469

原创 猿创征文|大数据之离线数据处理总结+思维导图(全面总结)

大数据离线数据处理总结Linux常用命令Hadoopzookeeper分布式协调框架yarn资源调度框架mapreduce分布式离线计算引擎Scala语言spark分析计算引擎hive数据根系工具sqoop数据导入导出工具flume数据采集工具azkaban分布式任务调度工具综合项目离线数仓分析项目

2022-09-03 21:07:23 523

原创 大数据bug 笔记之Azkaban web-server节点启动问题

大数据bug笔记之Azkaban问题发现azkaban web-server 节点不能启动问题。azkaban安装完成后,启动服务exec-server与web-server,jps发现web-server的节点没起来。解决问题首先,检查配置文件,看文件是否有差错;如果没有,第二步执行start-web.sh shell脚本文件,再进入到azkaban/web-server目录下查看webServerLog日志;如果没有日志,则进入azkaban/web-server/bin目录,bin目录下

2022-09-02 00:30:44 733

原创 猿创征文|大数据之离线数仓各工具常用命令

近期学习大数据离线数仓,接触到了许多处理数据的应用及工具:Hadoop、hive、sqoop、azkaban、flume、datax、superset、zookeeper、Kafka、redis等,做项目需要开启节点、启动服务,结束关掉服务节点等操作,这里将我常用的进行总结,后期接触更多则继续在这里更新#离线数仓各工具常用命令及操作!

2022-09-01 23:05:34 313

原创 猿创征文|大数据之Kafka简介+基操

Kafka指的就是消息队列,也叫消息中间件,主要是做数据的传输使用,对接生产者和消费者两端数据信息,然后获取数据保存数据,将数据按照管道进行传输。Kafka什么是消息队列?Kafka简介三大特点核心概念 Kafka 的基本操作topic的操作创建topic查看topic的列表查看每一个topic的信息修改一个topic删除一个topic列举所有topic生产数据消费数据kafka的数据消费总结...

2022-08-31 00:15:12 249 1

原创 猿创征文|大数据之Sqoop数据导入操作

Sqoop命令执行常见命令执行参数通过文件传递参数连接数据库查看所有表将数据导入HDFS指定表导入指定列导入指定条件导入指定sql导入将数据导入到Hive导入填充空值数据**Sqoop**,一个用于Hadoop和结构化数据存储之间进行高效传输大批量数据的工具:将数据从关系型数据库管理系统导入到Hadoop系统中将数据从Hadoop系统中抽取并导出到关系型数据库。Sqoop的核心设计思想是利用Map Reduce加快数据传输速度。Sqoop的重要关键词import export......

2022-08-27 22:16:01 533

原创 猿创征文|成功解决虚拟机彼此之间免密登录问题:connect to host xxxxxx port 22: Connection timed out

虚拟机之间免密登录出错 connect to host xxxxxx port 22: Connection timed outconnect to host 主机名 port 22: Connection refusedping ip,ssh ip地址连接时出现ECDSA key密钥对不同ssh-keygen -t rsa` 生成公钥和私钥`ssh-copy-id 主机名` 将公钥拷贝到本机以及其他虚拟机SSH简介SSH 为 Secure Shell 的缩写,由 IETF 的网络小组所制定......

2022-08-27 17:31:40 880

原创 数据仓库基础

数据仓库基础数据仓库概念数仓特性数仓架构数据集市架构Inmon企业信息工厂架构kimball数据仓库架构混合型数据仓库架构为什么要数据仓库进行分层数仓常见术语解析数据集市数仓名词之间的关系指标与标签区别数据集市和数据仓库的关系数据仓库与数据库的区别

2022-08-22 22:37:15 541

原创 MySQL权限与安全管理之权限表与账户管理

MySQL用户可以分为root用户和普通用户。root用户是超级管理员,拥有所有权限,包括创建用户,删除用户和修改用户的密码等管理权限;普通用户只拥有被授予的MySQL权限表与账户管理:user表连接到服务器的账号信息,里面的权限是全局级的db表存储用户对数据库的操作权限,登录和退出MySQL服务器命令及常用参数,使用CREATE USER语句创建新用户直接操作MySQL用户表删除普通用户使用DROP USER语句删除用户root用户修改自己的密码执行`FLUSH PRIVILEGES`语句重新加载用户权限

2022-08-20 20:53:17 1354

原创 Scala编程基础——集合&高阶函数

Scala编程基础之集合于高阶函数,主要内容包括:数组(定长与变长数组,遍历数组,元素处理,数组的常用方法)、元组(创建访问元组,元组遍历,zip拉链操作)、映射、列表(list的高阶方法)、set以及集合的重要函数、柯里化...

2022-08-07 17:24:30 122

原创 Scala中下划线‘_’的作用——十三种作用

2、集合中的每一个元素3、获取元组Tuple中的元素4、模式匹配5、队列6、导入包的时候7、初始化变量8、函数中使用9、传参10、类型通配符11、将函数赋给变量12、参数展开如果客户端需要拿到所有连接参数如果仅仅需要拿到和......

2022-08-07 15:32:57 727

原创 Scala编程基础

Scala面向对象编程函数式编程和强大的类型系统结合起来,让人能写出优雅、简洁的代码。表达式、语句和代码块与Java一样,还有类、包和引用的语法。除语法之外,Scala还采用了Java的其他元素,如它的基本类型、类库和它的执行模式。函数式编程借鉴了SML,OCaml,和F#为代表的ML家族语言很接近,Scala的隐式参数灵感来自Haskell,基于actor的并发库来自EeLang的思想。Scala特点函数式编程优缺点Scala变量于类型操作符表达式方法于函数的定义、区别;...

2022-08-07 15:09:59 251

原创 LoveCount统计“爱”——Scala-Spark实战应用案例

Scala-Spark实战应用案例统计txt文件中`love`单词出现的次数;txt文件中哪个单词出现的次数最多?RDD算子flatMap(func)filter(func)count()map(func)reduceByKey(func,[numTasks])sortBy(func,[ascending], [numTasks])take(n)**textFile**读取文件......

2022-08-04 03:31:11 382

原创 IDEA运行Maven打包项目编译报错:不再支持源选项 5。请使用 6 或者更高版本。不再支持目标选项 1.5。请使用 1.6 或更高版本。

最近学习大数据,利用mapreduce进行WordCount单词计数测试,在IDEA中建好Maven项目定义好类后,打jar包是出现了错误,没能成功打包。wordcount.jar包上传到Linux进行测试,成功的进行了单词计数。Linux上的jdk版本是1.8,为了之后的学习能顺利进行,使本地jdk与Linux的版本相同,后期会少很多麻烦!!!遇到类似问题有所启发,少走弯路!报错是版本问题,马上就想到了jdk版本是否不匹配,随即win+r打开命令行输入 :java -version 查看Java版本...

2022-07-23 20:33:08 1191

原创 HDFS的Shell操作命令+示例

HDFS的Shell操作命令上传命令查看命令下载命令合并下载删除命令拷贝命令移动命令创建空文件向文件中追加内容修改文件权限修改文件副本数量文件测试查看文件夹及子文件夹数量查看文件状态查看磁盘利用率及文件大小......

2022-07-19 18:33:34 616

原创 安装虚拟机和数据库部分报错解决(CentOS7)

1251- Client does not support authentication protocol requested by serverfinalshell 连接主机java.net.ConnectException: Connection timed out: connect依赖检测失败/usr/bin/perlperl(Getopt::Long)perl(strict) 被xxxxx xx需要ERROR 1410 2003-Can't connect to MySql server on

2022-07-17 15:48:33 473

原创 linux常用命令

Linux的常用命令帮助命令文件处理命令vi编译器定位命令保存和退出命令删除命令复制和剪切命令替换和查找命令搜索和替换命令find命令选项磁盘的操作命令清理缓存命令:打包压缩命令系统关机命令其他关机命令:重启命令:其他命令linux的快捷键命令yum的基本操作...

2022-07-16 22:10:41 262

原创 MySQL学习笔记---数据表基本操作

-- 查看表SHOW TABLES;-- 查看表结构DESC stu;-- 查看创建表的SQL语句SHOW CREATE table stu;-- 修改表添加字段alter table stu add address VARCHAR(30);-- 修改表中已有字段alter table stu modify address varchar(60);-- 删除表中字段ALTER TABLE stu DROP address;-- 修改表名RENAME TABLE stu to stu

2022-07-12 09:50:12 39

原创 Java编程实例:二分查找字符串中指定关键字

二分查找又称为折半查找,优点是比较次数少,查找速度快,平均性能好;其缺点是要求待查表为有序表,且插入删除困难。因此,折半查找方法适用于不经常变动而查找频繁的有序列表。Java编程实例:二分查找字符串中指定关键字使用随机函数生成10个值,然后通过而二分查找法判断用户输入的数字是否在该字符串中。...

2022-07-04 07:00:00 247

原创 Java编程:自定义异常案例(多个异常处理)

用户只需要继承Exception类即可自定义异常类。在程序中使用自定义异常类,大体可分为以下几个步骤:1、创建自定义异常类。2、在方法中通过throw关键字抛出异常对象。3、如果在当前抛出异常的方法中处理异常,可以使用try-catch语句块捕获并处理,否则在方法的声明处通过throws关键字指明要抛出给方法调用者的异常,继续进行下一步操作。4、在出现异常的方法的调用者中捕获并处理异常。...

2022-07-03 07:00:00 916

原创 Java编程:有一个字符串,将所有的单词找出,并确定单词的个数。将单词和单词个数放入对象MyWord,将所有的MyWord对象存入数组.分别按照单词个数和单词从小到大排序。

有一个字符串hello4422world23haha2bingbing54xiaokun33hello82788hello333333world67890xiaokun8838383838hello88877haha要求:1.将所有的单词找出,并确定每个单词的个数2.将单词和单词个数放入对象MyWord,将所有的MyWord对象存入数组.3.分别按照单词个数和单词从小到大排序(使用匿名内部类和lambda表达式)分析使用的知识点:字符串正则表达式( 正则表达式:通过设定规则,用来对字符串进行规则

2022-07-02 17:14:20 76

原创 MySQL数据库索引

索引的含义和特点索引的分类索引的设计原则创建索引创建表的时候创建索引创建普通索引创建唯一索引创建单列索引创建组合索引创建全文索引创建空间索引在已经存在的表上创建索引使用ALTER TABLE语句创建索引使用CREATE删除索引 INDEX创建索引使用ALTER TABLE删除索引使用DROP INDEX语句删除索引 大多数存储引擎有更高的限制。MySQL中索引的存储类型有两种,即BTREE和HASH,具体和表的存储引擎相关;MyISAM和InnoDB存储引擎只支持BTREE索引;MEMORY/HEAP存储引

2022-07-02 01:22:44 263

原创 Java编程:给定字符串数组,找出各个字符串中出现的公共字符。

目的:掌握LinkedList、HashSet、HashMap的使用方法。要求:给定字符串数组,找出各个字符串中出现的公共字符。例子:给定字符串数组中有三个字符串"look", "lock", "cook",输出字符’k’, ‘o’,输出字符的顺序不做要求。...

2022-07-01 15:53:09 605

幸福指数报告数据分析聚类数据集

《 2020年报告》首次通过主观幸福感对全球城市进行排名,并更深入地探讨了社会,城市和自然环境如何结合在一起影响我们的幸福。幸福分数和排名使用盖洛普世界民意调查的数据。分数基于对民意调查中提出的主要生活评估问题的答案。分数来自2015-2020年全国代表性的样本,并使用盖洛普权重使估算值具有代表性。幸福评分后面的各栏估算了六个因素(经济生产,社会支持,预期寿命,自由,没有腐败和慷慨)中每个因素在何种程度上有助于使每个国家的生活评价高于反乌托邦,一个假设的国家,其六个因素的价值均等于世界最低的国家平均值。

2022-05-11

牛油果数据分析聚类数据集

在如今的大数据时代里,要找到这样一个城市并不难,只要获取到了足够的牛油果销量数据,就可以用简单的方式发现其内在价值,这是值得探讨的。为此提出了用数据分析获取低价优质的牛油果的城市

2022-05-11

2021 年“泰迪杯”数据分析技能赛B 题+肥料登记数据分析数据集

2021 年“泰迪杯”数据分析技能赛B 题+肥料登记数据分析数据集 附件 1 的产品通用名称存在不规范的情况。附件 2 中筛选出复混肥料的产品,将所有复混肥料按照总无机养分百分比的取值等距分为 10 组。 附件 3 中提取产品登记数量大于 10 的肥料企业,给出这些企业所用到的原料集合(发酵菌剂除外)。附件 4 技术指标中提取出氮、磷、钾养分和有机质的百分比,以及肥料含氯的程度。

2022-04-26

2021年“泰迪杯”数据分析技能赛A题+“非洲通讯产品销售数据”数据集

2021年“泰迪杯”数据分析技能赛A题+“非洲通讯产品销售数据”数据集 进入本世纪以来,我国通讯产品得到了飞速发展,其技术先进,价格便宜, 深受世界各国和地区尤其是非洲国家的欢迎。某通讯公司在非洲的多个国家深耕 多年,产品与服务遍布整个非洲大陆。为了更好地了解公司的销售情况,采用产 品的销售额和利润数据,对其盈利能力进行分析和预测,给决策人员提供分析报 告,以便为非洲各国提供更好的产品销售策略和服务。

2022-04-26

全国等级考试二级C语言考点复习

全国等级考试二级C语言考点复习,包含考点点拨、真题举例、细节分析,知识点全面。

2022-04-25

Java jdk api 1.8_google.CHM JDK API 1.8谷歌翻译中文版在线参考手册

Java jdk api 1.8_google.CHM JDK API 1.8谷歌翻译中文版在线参考手册,附加使用说明,无需安装,下载直接使用,方便快捷。

2022-04-25

python36动态链接库

python36动态链接库 解决程序无法连接动态链接库问题

2022-04-24

python全面学习资料

资料包含python开发软件安装教程、python基础核心知识--列表、if判断+序列类型、循环和函数、爬虫+自动化办公、python爬虫+数据分析、python人工智能--图像识别项目。

2022-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除