- 博客(41)
- 收藏
- 关注
原创 Hive函数
本文内容是函数,主要包括函数分类标准、复杂类型函数、字符串函数、日期时间函数、数学函数、条件函数、类型转换函数、数据脱敏函数、其他函数、炸裂函数、JSON文件处理、开窗函数。
2024-11-10 23:55:06 279
原创 linux搭建大数据环境
本文主要演示如何搭建集群、安装mysql、安装hadoop、安装hive、安装zookeeper、配置Hadoop高可用环境搭建及如何配置相应的文件。
2024-11-09 11:39:15 629
原创 linux搭建大数据环境
本文主要包括如何搭建集群、安装mysql、安装hadoop、安装hive、安装zookeeper、配置Hadoop高可用环境搭建及如何配置相应的文件。
2024-11-08 23:16:06 1122
原创 SQL行列转换
本文介绍了如何在SQL中实现行列转换,包括列转行和行转列两种操作,通过unionall、trans_cols、explode和case/when/collect_list等函数进行示例演示,以及如何准备测试数据并进行实际操作。
2024-11-07 21:35:25 823
原创 Hive操作库、操作表及数据仓库的简单介绍
本文内容包括数仓和数据库的区别、hive数据库操作、数仓分层、ETL和ELT、内部表、外部表、查看表、修改表、映射表、导入数据到hive表、从hive表导出数据到文件、分区表、分桶表、复杂类型。
2024-11-06 09:06:36 726
原创 Hive操作库、操作表及数据仓库的简单介绍
本文内容包括数仓和数据库的区别、hive数据库操作、数仓分层、ETL和ELT、内部表、外部表、查看表、修改表、映射表、导入数据到hive表、从hive表导出数据到文件、分区表、分桶表、复杂类型。
2024-11-05 23:09:34 1353
原创 Hive介绍
本文主要介绍了Apache Hive概述、模拟实现Hive功能、Hive基础架构、Hive部署、Hive初体验、Hive客户端、Hive客户端连接
2024-11-04 21:32:34 900
原创 大数据导论及分布式存储HadoopHDFS入门
本文介绍了大数据的诞生、概念、生态,hadoop发展历程、分布式和集群、Hadoop框架概论、HDFS文件系统
2024-11-04 15:36:03 1293
原创 Linux_shell编程
本文介绍了shell、shell变量、shell字符串、shell反引号的使用、shell命令、shell脚本、shell脚本的执行方式及shell运算方式等
2024-11-03 20:02:28 1021
原创 Linux进阶
本文包括 认识root用户(超级管理员)、用户和组管理、查看权限控制、修改文件全新 chmod、修改文件所属 chown、常用小技巧命令、软件安装、systemctl系统控制、软连接 ln、日期、时区IP地址、主机名和域名、网络传输ping/wget/curl、端口、进程管理ps/kill、主机磁盘状态 df、环境变量上传、下载压缩解压
2024-11-03 00:13:54 1506
原创 Linux基础---Linux介绍、安装、及基本命令
计算机简介: 概述: 全称叫电子计算机, 英文名叫Computer, 俗称叫电脑, 就是由硬件 和 软件组成的一套设备. 组成: 硬件: CPU, 内存(临时存储), 磁盘(永久存储), 输入设备(键鼠组合), 输出设备(显示器, 打印机...) 软件: 系统软件: PC端(Windows, Linux, MacOS), 移动端(Android, IOS, 鸿蒙...) 应用软件: 微信, QQ,
2024-10-30 09:00:00 1179
原创 可视化ETL平台-Kettle的安装及简单使用
本文介绍了kettle的安装、txt转换为Excel文件、Excel转换为Mysql文件、Mysql表与表数据转换及其他操作等。
2024-10-27 08:30:00 1342
原创 oracle数据库---PL/SQL、存储函数、存储过程、触发器、定时器job、备份
本文介绍了oracle数据库的PL/SQL、存储函数、存储过程、触发器、定时器job的使用方法,附代码及案例
2024-10-25 20:14:37 1518
原创 oracle数据库---窗口函数(排名问题、Top N 问题、累计问题、每组内比较问题、连续问题)
本文包括窗口函数(排名问题、Top N 问题、累计问题、每组内比较问题、连续问题)的解法例题附数据和代码
2024-10-22 09:00:00 938
原创 oracle数据库---视图、物化视图、序列、同义词、索引
视图是一种数据库对象,是从一个或者多个数据表或视图中导出的虚表,视图所对应的数据并不真正地存储在视图中,而是存储在所引用的数据表中,视图的结构和数据是对数据表进行查询的结果。一个视图所存储的并不是数据,而是一条预定义】SQL语句。根据创建视图时给定的条件,视图可以是一个数据表的一部分,也可以是多个基表的联合,它存储了要执行检索的查询语句的定义,以便在引用该视图时使用。使用视图的优点:1.简化数据操作:视图可以简化用户处理数据的方式。
2024-10-21 08:36:23 1325
原创 oracle数据库---基本查询(单表查询、多表查询、子查询、分页查询、oracle内置函数、行列转换、集合运算)
本文内容包括单表查询、多表查询、子查询、分页查询、内置函数、集合运算。并附有相应的数据源及代码
2024-10-19 21:20:01 1246
原创 VMware虚拟机软件安装、卸载
VMware是一个软件.这个软件可以刻画出来多个不同配置的计算机硬件(裸机).VMware只能负责产生裸机,要想使用这台机器.需要为其安装操作系统.VMware常见的场景就是用来安装Linux操作系统....我们以后要学习大数据hadoop软件,hadoop软件在linux环境下安装.因此我们需要有台装有Linux系统的电脑.我们就利用虚拟机先刻画出裸机.然后为裸机安装Linux操作系统即可.
2024-10-15 20:39:57 640
原创 MySql数据库---mysql优化、mysql视图
1.视图是mysql的一个组件.用于存储临时的数据.但是数据是保存在原表中的.2.视图可以简化负责sql的编写.3.视图可以保证原表的安全性.4.修改原表中的数据会影响视图中的数据.
2024-10-14 11:08:15 413
原创 MySql数据库---索引、引擎、事务
索引的优点:大大加快数据的查询速度使用分组和排序进行数据查询时,可以显著减少查询时分组和排序的时间创建唯一索引,能够保证数据库表中每一行数据的唯一性在实现数据的参考完整性方面,可以加速表和表之间的连接索引的缺点:创建索引和维护索引需要消耗时间,并且随着数据量的增加,时间也会增加索引需要占据磁盘空间对数据表中的数据进行增加,修改,删除时,索引也要动态的维护,降低了维护的速度创建索引的原则:更新频繁的列不应设置索引数据量小的表不要使用索引(毕竟总共2页的文档,还要目录吗?
2024-10-14 10:31:22 749
原创 MySql数据库---存储过程(带in、out、inout参数,),变量定义,if,case判断,循环结构,游标,handler异常处理
变量可以在存储过程中临时存储查询的结果.最后汇总计算成为功能需要的结果.-- todo 在存储过程中定义变量-----------------------------------begin-- todo 定义变量-- todo 修改变量的值end $$delimiter;begin-- todo 定义变量-- todo 使用select ... into 变量名 -- 修改变量的值end $$delimiter;。
2024-10-14 09:59:21 882
原创 MySql总结知识及扩展内容
思考题现有一张某年度的月销量信息表 tb_sales,数据如下:如何计算截止到每个月的累计销量?1月:1月销量,2月:1月销量+2月销量,3月:1月销量+2月销量+3月销量,依次类推分区数据范围和window frame数据范围在使用窗口函数处理表中的每行数据时,每行数据关联的数据有两种:1)每行数据关联的分区数据OVER()中什么都不写时,整张表默认是一个分区OVER(PARTITION BY 列名, ...):整张表按照指定的列被进行了分区2)每行数据关联的window frame数据。
2024-10-08 20:03:06 1095
原创 MySql数据库---判断函数,和窗口结合的函数,窗口函数
lead(hiredate,1,'默认时间') over(partition by dname order by hiredate) as last_1_time,-- todo 首尾函数----------first_value默认窗口是:分组内当前行到往上无边界--------------- todo 首尾函数----------last_value默认窗口是:分组内当前行到往上无边界-------------1.聚合函数:sum(),count(),avg(),max(),min()
2024-09-27 09:00:00 1180
原创 MySql数据库---子查询,多表连接查询,自连接查询,串联查询,数学函数,字符串函数,时间日期函数,判断分支语句
1:一个sql的查询结果当做另一个sql的查询条件.左连接查询的是:左表的全部和右边表能连接上的数据.右连接查询的是:右表的全部和左边表能连接上的数据.3.子查询当临时表(出现在from的后边位置)左边特有的数据:右边没有的值用null填充。右边特有的数据:左边没有的值用null填充。union all:纵向拼接不去重。2:内层的那个sql语句要先执行。1.子查询当条件(单值对比)2.子查询当条件(多值对比)union: 纵向拼接去重。查询的是两个表的交集.
2024-09-25 20:01:21 693
原创 MySql数据库---单表查询,高级查询,外键约束,多表关系,建表原则
having:可以对select后边计算后的列进行过滤的.注意:having不能单独使用.必须搭配group by。建议: 能放在where中过滤的进行放在where中.如果有计算列的值则必须放在having中进行过滤.2:在任意一张表中创建一个外键执行另一张表的主键.但是外键要加一个唯一约束.创建第三张表.该表至少有两个外键列,分别指向两张表的主键.(3)having分组条件是用来过滤分组后的数据。where: 是对表中的列进行条件过滤的.在多的一方建立外键列,指向1的一方的主键列。
2024-09-23 11:41:57 477
原创 MySql语言操作数据库---MySql引擎,数据表,约束,基本查询,条件查询
作用:引擎决定了数据是如何存在于数据库中的.不同引擎存储结构和特征是不同的.==方式1: 创建由datagrip自己维护路径的sql文件.==自动增长约束: 不能独立使用.必须依附于键约束的后边.外键约束: 来关联另一张表.从而对另一张表有约束作用.常见引擎: InnoDB,MyISAM,Memory。方式2: truncate [table] 表名;查看支持的引擎: show engines;==方式2: 关联外部指定的目录或者文件==非空约束: 数据为空插入失败。唯一约束: 数据重复插入失败。
2024-09-23 09:00:00 391
原创 MySql语言操作数据库---增删改查数据库,表,数据
数据定义语句DDL用来创建数据库中的各种对象-----[库]、[表]。数据库操作语句(1) 插入:INSERT (2) 更新:UPDATE (3) 删除:DELETE
2024-09-20 10:00:10 887
原创 MySql安装(绿色版安装包加详细教程)
windows+r键打开,输入cmd输入mysql #注意,mysql是我的密码,你需要输入自己的密码。
2024-09-20 09:07:46 932
原创 Python基础语法-小白训练题
1.需求:定义空列表: 列表名 = [] 或者 列表名 = list()# 2.需求: 定义一个列表存储'张三','李四','王五'等多个学生姓名# 需求: 定义 空元组格式两种方式# 需求: 定义非空元组存储'张三', '李四', '王五'# 注意: 如果元组只存储一个元素'赵六'。
2024-09-18 09:29:36 1314
原创 使用Python实现学生管理系统
3-当用户选择2时,修改信息:修改学生信息(先输入学生编号,如果学生信息已存在可以修改姓名和联系方式)2-当用户选择1时,增加信息:添加学生信息(学生编号、学生姓名、联系方式),注意-学生编号必须唯一。自定义函数update_stu(),实现修改学生信息,当用户选择2时调用update_stu()自定义函数query_all(),实现查询所有学生信息,当用户选择5时调用query_all()自定义函数add_stu(),实现添加学生信息,当用户选择1时调用add_stu()
2024-09-16 09:30:00 514
原创 Python正则表达式
功能:直接扫描整个字符串,如果匹配成功会将所有匹配到的内容封装到列表中返回,如果匹配失败返回空列表。功能:直接扫描整个字符串,如果匹配成功只返回第一个匹配到的位置和内容,如果匹配失败返回None。功能:只能从起始位置开始匹配,如果匹配成功返回匹配到的位置和内容,如果匹配不到返回None。格式:re.findall(正则表达式, 要匹配的字符串, 标志位)格式:re.search(正则表达式, 要匹配的字符串, 标志位)格式:re.match(正则表达式, 要匹配的字符串, 标志位)
2024-09-16 06:00:00 564
原创 Python模块与包
Python模块(Module),是一个Python文件,以.py结尾,模块可以定义类、函数、变量等,模块里可以包含可执行代码模块的作用Python中很多各种不同的模块每个模块都可以帮我们实现特定功能,拿来即用不需要自己开发我们可以自定义模块定义与调用模块每个Python文件都可以作为一个模块,模块的名字就是文件的名字. 也就是说自定义模块名必须要符合标识符命名规则在Python中,模块主要分为三类:自定义模块:定义后,直接使用标准库:直接导入使用-- import random。
2024-09-14 21:40:18 1144
原创 Python异常处理
示例:# 定义一个列表# 从列表中获取数据show(5)总结:异常指是Python程序发生的不正常事件,异常可称为错误当检测到一个错误时,Python解释器就无法正常继续工作,会出现一些错误提示信息,这些信息就叫做异常信息,这就是我们常说的bug。通常情况下Python中的异常的名称是以Error结尾。
2024-09-14 21:20:15 415
原创 Python数据容器--列表,元组,字符串,集合,字典等
定义空列表list1 = []# 定义非空列表# 定义嵌套列表总结:定义空列表:[] 或者 list()定义非空列表:[元素1, 元素2, ........]元素的数据类型没有限制,甚至元素本身也可以是列表(嵌套列表)# 定义空元组t1 = ()# 定义非空元组t3 = (10,) # 如果元组中只有一个元素,必须加逗号# 定义嵌套元组print(t5)总结:定义空元组:()或者tuple()定义非空元组:(元素1, 元素2, 元素3.......)
2024-09-08 11:35:28 1253
原创 Python函数基础
总结:函数的定义语法def 函数名(传入参数):函数体return 返回值函数的使用步骤先定义函数再调用函数函数的注意事项参数不需要,可以省略返回值不需要,可以省略。
2024-09-06 21:27:54 1056
原创 Python循环语句
continue和break在for和while循环中作用一致。在嵌套循环中,只能作用在所在的循环上,无法对上层循环起作用。注意:如果条件恒成立或者直接写True,就会出现无限循环。# 当待处理的数据集中的所有元素被遍历之后自动跳出循环。continue:跳过某次循环,继续下一次循环。for 临时变量 in 待处理的数据集。循环体(要循环执行的代码)break:跳出循环,结束循环。
2024-09-04 17:53:26 692 1
原创 Python判断语句
嵌套判断语句,一定要注意空格缩进,Python通过空格缩进来决定层次关系。or:或(或者)任何一个条件成立结果为True,否则为False。and:与(并且)所有条件都成立结果True,否则为False。# 当前使用elif有多个判断条件时,每种情况是互斥的。所有条件都不满足时要执行的代码。嵌套判断语句可以用于多条件、多层次的逻辑判断。不满足条件时要执行的代码。满足条件1时要执行的代码。满足条件2时要执行的代码。满足条件N时要执行的代码。满足条件时要执行的代码。满足条件时要执行的代码。
2024-09-04 17:11:39 471
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人