自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 hadoop+hive集群运维常用命令

其他端口是dolphinscheduler发起的,来连接hiveserver2的10000端口。5.找到端口被什么进程发出。

2024-05-20 17:46:05 156

原创 hadoop3.1.3+hive3.1.2+dolphinscheduler2.0.6使用问题

第一个表中的table_a和第二个表中的table_b的临时结果数据连接结果记录为tmp_a_b,当它与第三个表连接时,hive-3.0.0后默认创建的表的 bucket_version=2,临时数据tmp_a_b初始化了 bucketVerison=-1,然后连接了 ReduceSinkOperator Verketison=-1。否则,将获得哈希的旧算法。但是,如果Hive客户端异常终止,可能会导致Hive作业的临时或中间数据集无法清理,从而导致Hive作业临时目录占用大量的HDFS空间。

2024-05-20 16:52:40 718

原创 数据仓库SQL编码规范

业务域中文名业务域命名业务域命名(缩写)命名示例浙二浙江省第二人民医院zher余杭余杭区卫健委yhwjw桐庐桐庐卫健委tlwjw余杭区第一人民医院余杭区第一人民医院yh1数据域中文名数据域命名数据域命名(缩写)命名示例门诊outpatientoutp住院inpatientInp检验LisLis检查risRis病案Mrsmrs电子病历Emremr费用Feefee随访followupfollowup。

2024-05-17 14:49:12 807

原创 python合并excel文件数据--1.复杂版(自定义后合并)

2.自定义读到的excel并合并到新的excel文件中。

2024-04-26 14:28:01 142 1

原创 python合并excel文件数据--1.简单版(直接合并)

if i == 1:#可以自定义新的数据列加进dfdf['所在地'] = df.iloc[0,0]df['文件名'] = file_nameprint(f"合并了第{i}个文件: {file_name}")

2024-04-25 11:43:45 229 1

原创 python遍历文件夹及子文件夹下所有文件并复制到同一文件夹下

3.将文件复制到根目录路径下,并命名新文件名。2.将新文件名放到excel_files中。1.获取路径+文件名构建新文件名。

2024-04-23 14:07:17 357

原创 常用sql语句--计算周岁

两种常用方式(根据身份证号计算)

2024-04-16 17:16:15 569

原创 jar包的概念及作用(二)运行jar包、查看jar包内容

反编译的结果可能不会完全还原原始的源代码,因为一些信息可能在编译过程中丢失或被优化。此外,反编译的源代码可能不完全可编辑或可理解,特别是如果原始代码经过混淆或加密处理。需要强调的是,反编译 JAR 包的行为可能违反软件的许可协议或法律规定。如果你对 JAR 包的源代码有特定的需求,最好的做法是与软件的开发者或所有者联系,以获取合法的源代码或支持。执行`jar`包后,根据`jar`包中的代码逻辑,可能会出现不同的结果。此外,如果`jar`包需要特定的依赖或配置,可能还需要满足其他要求。拖到界面,即显示代码。

2024-03-27 09:56:17 626

原创 一个后台登录的拦截器

2.写第一个方法(1.预检请求,是则直接放行,不是则是正式请求2.要走取token在redis里验证,取出写入threadlocal,将redis的用户信息的过期时间延长三十分钟,放行)3.拦截器注册:写死对哪个路径拦截哪个不拦截(在原本写的配置类里面,注进拦截器的类@Autowired,有两个方法 excluede不拦截add需要拦截)(有三个方法,分别在方法调用前后执行以及所有完成后执行的,我们用第一和第三个@override)写第三个方法(删除threadLocal)

2023-10-24 11:35:56 120

原创 mysql死锁问题解决

找到这张表的进程id,将sleep的,或者所有的id都kill掉(先试试只kill sleep的是否解开死锁)。查找到表a的in_use>0确定了表a确实被死锁(有点废话,此步骤可以跳过)。

2023-10-13 10:59:51 103

转载 linux下centos7 pgadmin4的安装部署

此处需注意,pgadmin是基于python3的(CentOS7默认是python2.7版本),在安装pgadmin4-web的过程中,会安装其依赖的python36版本,如果觉得官方软件源安装太慢,建议先行修改本地系统的yum源,包括【base源、epel源】;安装完成后,会在/etc/yum.repos.d/目录下,生成一个pgadmin4.repo文件,确认此文件存在即可。注:其中python3.6及各个库,是安装pgAdmin时,依赖安装自EPEL的;这一节,官文也没有交待清楚,自己摸索了好久。

2023-10-10 17:11:00 1013 2

原创 构造函数的作用和创建

主要用来在创建对象时完成对对象属性的一些初始化等操作, 当创建对象时, 对象会自动调用它的构造函数。", 默认构造函数不能完成对象数据成员的初始化, 只能给对象创建一标识符, 并为对象中的数据成员开辟一定的内存空间。当用户没有显式的去定义构造函数时, 编译器会为类生成一个默认的构造函数, 称为 "■ 给创建的对象建立一个标识符;■ 为对象数据成员开辟内存空间;■ 完成对象数据成员的初始化。

2023-10-10 11:16:34 117 1

原创 写一个Java项目需要具备的基础知识

私有化后,如果没有get\set方法,实例化也不能获取属性。公有化,实例化后就可以获取属性。私有化,防止其他类实例化此类。

2023-10-10 10:31:44 58 2

原创 mysql实现rank()排序功能

在MySQL中,不存在类似于SQL Server或Orcal等中的rank()函数来得到排名;所以我们需要手动地写这个rank功能。看我给大家手撸个MySQL rank()函数,来自于。

2023-09-01 15:07:12 387 1

原创 windows10改hive源码

我用的maven版本是3.6.3,据说3.5.4以上的版本很多都会有这个问题,我把版本降低到了3.5.3,问题完美解决。列如:Unable to process Jar entry [module-info.class]\。我们只需要去.m2中的maven仓库里找到后面报错的jar包,然后用压缩文件工具打开,删除里面的。有一个关于tomcat的报错。

2023-07-19 11:36:37 82

原创 windows10环境下编译hive3.1.2源码

windows10的环境下编译hive3.1.2的源码参考官方的开发指南(链接如上),只更新到hive2.x,尝试使用hive2.x的命令编译成功。

2023-07-13 11:16:21 428 1

原创 带你快速认识并使用docker

镜像库(下下来别人定义好的镜像用)/dockerfile(自定义镜像用)->镜像->容器。

2023-05-18 18:35:04 60

原创 如何快速编写dockerfile--以nginx为例

运行容器后,生成的页面显示“恭喜你晋级docker黄金段位”。通过编写dockerfile,构建nginx镜像。有些版本的文件名必须是Dockerfile。

2023-05-18 16:46:15 226

原创 dolphinscheduler调度常见问题

问题一:每日调度随机出现以下报错,但可通过多次重试执行成功 两种报错: TTransport:SocketTimeout:Read time out SQL task prepareStatementAndBind 分别对应以下bug [Bug] [Task] SQL task prepareStatementAndBind error · Issue #10540 · apache/dolphinscheduler · G

2023-04-19 11:53:57 955 4

原创 hadoop常用linux命令

3.查看hdfs文件夹下文件按时间顺序排序。1.查看hdfs上文件夹下文件的个数。2.查看hdfs上文件夹下文件的大小。

2023-03-31 10:44:41 468

原创 常见数据同步工具的对比

离线批量数据同步工具---datax的配置,用来进行全量和增量数据的采集

2023-02-08 22:26:44 1109

原创 hive报错 Grouping sets size cannot be greater than 64

TaskLogLogger-class org.apache.dolphinscheduler.plugin.task.sql.SqlTask:[160] - sql task error: org.apache.hive.service.cli.HiveSQLException: Error while compiling statement: FAILED: SemanticException [Error 10411]: Grouping sets size cannot be greater tha

2023-02-07 15:25:58 2002 4

原创 hadoop集群调整存储

hadoop2.x默认128m,以前的版本默认64m寻址时间是传输时间的0.01最为合适,由于平均寻址时间是10ms,所以传输时间是10/0.01为1s由于磁盘的传输速率一般为100m/s,所以一个块的大小为100m/s*1s=100mb一个Hadoop集群中存在小文件问题是很正常的,可能的原因如下:1. 现在我们越来越多的将Hadoop用于(准)实时计算,在做数据抽取时处理的频率可能是每小时,每天,每周等,每次可能就只生成一个不到10MB的文件。

2023-01-28 17:15:56 406

原创 拿到跳板机及账号密码后进行连接

ssh连接linux跳板机

2022-10-09 16:40:21 813

原创 搭建新集群(CDH版

CDH版linux虚拟机 hadoop集群的搭建

2022-08-30 13:51:32 350

原创 写sql的心得

写sql经常涉及子查询,为子查询的层层嵌套感到头晕首先我们要明确是一个从一堆数据中选择需要的数据并进行逻辑操作,最终整合成一张表的过程所以最终那张表的字段就是我们的目标,也是最外层select接着我们开一个from套一层子查询(select无论需要几层,我们都先开一层,尝试从原始数据中找我们所需要的最小粒度的字段,可能有简单的聚合,分组,开窗也可以这一层做此时观察是否能完成直接到最外层字段的逻辑,如果不能,在两层之间再加一层子查询如果不行再在最外层向里面套一层)一般来说子查询嵌套

2022-08-29 23:43:06 150 1

原创 elasticsearch

浏览器访问http://hadoop102:5601/

2022-06-28 23:38:03 173

原创 hbase

nosql的一种,数据存储在hdfs中

2022-06-25 12:04:50 306

原创 从0到1学习nosql-redis

1.简介2.实例将user对象存起来--都能存,但要根据需求确定合适不合适、选哪一个方案3.持久化

2022-06-22 11:14:59 255

原创 jar包的概念及作用

1.简单来说,jar包是对写好的类进行了打包。我们可以通过将jar包放到lib目录下来使用这些jar包中的类、属性和方法。2.专业解释,JAR文件是Java Archive File-java档案文件的简称,是与平台无关的文件格式,基于zip文件格式将许多文件合成一个压缩文件.jar,区别是比zip多了一个包含了一个 META-INF/MANIFEST.MF 文件,这个文件是在生成 JAR 文件的时候自动创建的。3.作用JAR 文件不仅用于压缩和发布,而且还用于部署和封装库、组件和插件程序,并可

2022-04-04 16:00:39 18636 1

原创 ssh加密原理及ssh加密登录实现

加密原理(A向B传私密信息) 对称加密 AB两者共同商议出一个密钥,也就是具有相同的加密和解密方式。 举例:比如说A发送 A信息=私密信息 +1 ,B接收到A信息 -1 =私密信息,1就是对称密钥。 非对称加密 A生成一对密钥a和b,  免密登录 登录实现 对称加密 非对称加密 免密登录 ...

2022-03-27 11:59:22 3476

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除