自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

胖胖的博客

是胖胖的博客啊!

  • 博客(222)
  • 收藏
  • 关注

原创 [idea]idea连接clickhouse23.6.2.18

2、在服务器登录时指定u为default在这里要指定为admin。之后在maven的package里找到这俩jar包,加到里头。直接在pom.xml加上那个lz4也是必要的不然会报错。1、要写ip而不是主机名。

2023-12-08 12:02:09 582

原创 [yarn]yarn异常

直接kill掉ck1上的nodemanager进程,这样任务可以直接在ck2和ck3上运行。第1个1000指的是要运行1000次map任务。第2个数字指的是每个map任务,要投掷多少次。一、运行一下算圆周率的测试代码,看下报错。发现ck1节点上的所有任务都无法运行。三、无法解决异常,但是需要运行任务。

2023-11-07 17:33:07 906

原创 hive报错File does not exist: /tmp/hadoop-yarn/staging/root/.staging/job_1699234747075_0001/job_.jhist

设置了hive metastore高可用,但未启动zookeeper!无语了 ,刚好前一天服务器掉电了,还以为是yarn坏了。

2023-11-07 16:59:24 608

原创 [sqoop]hive导入mysql,其中mysql的列存在默认值列

直接在hive表中去掉有默认值的了列,在sqoop导入时,指定非默认值列即可,

2023-10-10 11:19:21 554

原创 [hive]解决group by 字段超过系统规定64个

用开窗函数即可where rn=1。

2023-10-10 11:13:56 193

原创 [FineReport]安装与使用(连接Hive3.1.2)

需求:我有一张表dws.dws_news_aggre这表有21列,我想这个21列全展示出来,并且仅展示10000条。并对其中的19列做一个查询框,方便查询。/home/data_warehouse/module/tomcat_bak/webapps/webroot/WEB-INF/reportlets目录下。解压,把里头的jar全放进去(这个适用Hive2版本的包,对于Hive3也是好用的)字符串需要拼接单引号(我的这些字段全是字符串类型的),数值类型的则不需要。编辑为文本框,选中扳手,再选择第一个空的。

2023-09-27 17:27:18 921 1

原创 [hive]hive不允许分区字段为中文或特殊字段

【代码】[hive]hive不允许分区字段为中文或特殊字段。

2023-09-25 12:14:00 303

原创 [python]centos7安装python

我们装上openssl那几个 也能编译。注:如果有高版本的则需要先卸载。

2023-09-21 11:51:51 126

原创 [FineReport] 连接hive3Caused by: java.lang.NoClassDefFoundError: org/apache/http/client/HttpClient

把里头的jar包单拿出来,放到 /home/data_warehouse/module/tomcat/webapps/webroot/WEB-INF/lib 目录下。

2023-09-20 16:19:34 98

原创 [sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

(2)删除Sqoop安装目录的lib目录中的commons-lang3-3.4.jar,并添加commons-lang-2.6.jar(在$HADOOP_HOME/share/hadoop/yarn/timelineservice/lib/commons-lang-2.6.jar下可以找到)需在sqoop-1.4.7-bin_hadoop2.6.0/lib下添加 hive-*.jar、datanucleus-*.jar、derby-10.14.1.0.jar、javax.jdo-3.2.0-m3.jar。

2023-09-19 11:40:14 511

原创 [hive]搭建hive3.1.2hiveserver2高可用可hive metastore高可用

没用里头的hive on spark,测试后发现版本冲突。

2023-09-19 10:18:39 462

原创 [hive]报错:Caused by: java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver

我自己的项目产生的原因是由于“3.版本不匹配”问题导致的。经过排查“ mysql-connector-java.jar ”包 5XX开始的版本路径是:“com.mysql.jdbc.Driver”,而6XX及以上开始的版本路径是:“com.mysql.cj.jdbc.Driver”。但是还是报Caused by: java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver。装元数据的mysql版本不用管,不用重装mysql。

2023-09-15 16:49:21 261

原创 [java]java读取excel

Java读取excel的方式

2023-09-12 17:42:16 77

原创 [ES]二基础 |

默认为true(创建),为所有的字段都创建倒排索引。false不参与搜索,像商品的图片是个url这种就不需要参与搜索,并不是所有的字段都需要创建搜索。②数值:long、integer、short、byte、double、float(es的底层是用java实现的,所以和java一致)ES中通过Restful请求操作索引库、文档。①字符串:text(可分词的文本)、keyword(精确值,如品牌、国家、ip等不拆分的数据,这种拆分没意义)⑤object对象,对象可以任意嵌套,对象的子属性可以参与搜索。

2023-08-29 10:40:45 821

原创 [ES]mac安装es、kibana、ik分词器

可选的有standard、english、chinese但是他们的中文都是一个字分一个词。必须创建,直接解压到plugins目录下会报错。点击这个,在里面写就行了。

2023-08-28 15:07:30 1232

原创 [ES]一基础|正排索引和倒排索引 | ES和MySQLd的对比 | 默认分词器 | IK分词器 | 扩展、停用ik分词器的词库

参考。

2023-08-17 16:47:33 419

原创 [centos]设置主机名

3、打开一个新链接就可以了。

2023-08-14 08:42:53 383

原创 [ubuntu]创建root权限的用户 该用户登录后自动切换为root用户

passwd 用户名。

2023-08-09 09:42:42 1206

原创 [excel]vlookup函数对相同的ip进行关联

第二个:第二个sheet要匹配的数据,因为要和第一个sheet中的ip进行匹配,所以ip必须放在第一列。第三个:第二个sheet里我们要的字,ip列为第1列,其他列序号递增,我们要的是漏洞名称,是第2列,填入2。第四个:匹配条件是精确匹配还是近似匹配,这边是精确匹配。另外近似匹配匹配的数据比较乱..一般不用。第一个:当前表要匹配的列,选择第一个sheet当前行需要处理的ip即可。找到sheet1在sheet2中存在的ip,也就是找到有漏洞的ip。vlookup函数有4个参数。按回车就出现了当前行的结果。

2023-08-09 09:08:23 992

原创 [redis]设置永久密码

找到# requirepass foobared这一行,修改成requirepass 123456,123456是密码,大家自定义。进入redis的src目录下,执行命令:redis-server ../redis.conf。进入redis目录,编辑redis.conf文件。重启redis,建议先杀掉redis进程再重启。注意requirepass前不允许有空格。执行命令:vim redis.conf。

2023-08-07 09:30:12 308

原创 [sqoop]将hive查询后的数据导入到MySQL

一、知识点export:将Hive的表导入到mysql叫导出搜了很多,发现sqoop在hive导出到mysql时1)不支持where参数对数据进行过滤。2)不支持指定hive表的方式导出,只能指定Hive目录进行导出。二、操作。

2023-07-25 11:25:16 2399

原创 [kafka]kafka如何保证消息有序

生产时:producer在把消息发送到partition的时候,当key非空时,用key的hash值对partition个数取模,决定要把消息发送到哪个partition上,可以指定一样的key,这样这个key的消息在单个partition内是有序的。消费时:在一个消费者组中的多个消费者消费一个topic时,一个消费这组中只能有一个消费者消费该消息,topic下的每个分区只属于组中的一个消费者,因此是有序的。因此kafka使用多partition的概念,并且只保证单partition有序。

2023-07-21 16:07:17 1583

原创 [centos]安装mysql8.0.26

1、首先,根据自己的机子到MySQL官网下载对应的数据库https://dev.mysql.com/downloads/mysql/2、卸载mariadb,并解压Mysql。

2023-07-19 17:11:45 1175

原创 [Centos]修改当前路径显示为全路径

找到[ "$PS1" = "\\s-\\v\\\$ " ] && PS1="[\u@\h \W]\\$ " 把里面的大写W改为小写w。

2023-07-19 15:10:22 243

原创 [mysql]tar安装mysql报错./mysqld: /lib64/libstdc++.so.6: version `CXXABI_1.3.11‘ not found(废弃)

根据报错信息发现最多需要2.34版本, 因此我们需要下载2.34版本。2、安装anaconda因为这里头有这个libstdc++.so的包可以直接用。注:这个libstdc++.so.6包,新的肯定包含有旧版本,所以下载新的就行。3、找到anaconda3中的libstdc++.so包、4、将anaconda中的该包复制到/lib64目录下。5、修改软连接 ,即让这个软连接指向最新版本即可。下载需要的版本,大版本必里含有小版本的包。继续升级glibc-2.35。可以看到里面有我们需要的版本。

2023-07-19 13:48:52 9859

原创 [数组]有序数组的平方

因为给定数组是按照顺序排序的,虽然有正负,但两头肯定是绝对值最大的。new一个结果数组。从后往前(值即从大到小)向结果数组内放入结果元素。一个头指针一个尾指针,用来判断哪边的更大,将大的值放入结果数组。

2023-07-14 09:54:13 547

原创 [数组]移除元素

2)整体思路不行,我这边是两头找,前面找的是要删掉的元素,后面找的是不等于要删掉的元素值的位置,然后两者交换。fast指针:指向新数组(删除目标值之后)里需要的元素。1)没必要设置成-1,直接按照val值查找是一样的。我用好长时间才写出来,看了题解感觉他思路贼好。slow指针:需要更新的下标位置。1)用快慢指针的思路来解决问题。一、leecode题目链接。

2023-07-14 09:13:50 660

原创 [数仓]事实表:周期快照 | 累计快照 | 无事实的事实表 | 迟到的事实表 | 累积度量

除数字类型的度量值外,事实表总是包含所引用维度表的外键,也可能包含可选的退化维度键或时间戳。数据分析的实质就是基于事实表开展计算和聚合操作。

2023-07-12 11:30:06 680

原创 [sqoop]导入数据

增量导入命令执行后,在控制台输出的最后部分,会打印出后续导入需要使用的last-value,当周期性执行导入时,应该用这种方式指定--last-value参数的值,以确保只导入新的活修改过的数据。可以通过一个增量导入的保存作业自动执行这个过程,这是适合重复执行增量导入的方式。--last-value 指定已经导入数据的被检查列的最大值(第一次需要指定,以后会自动生成)--check-column 在确定应该导入哪些行时,指定被检查的列。sqoop提供增量导入模式,用于只导入比已经导入行新的数据行。

2023-07-11 09:43:42 3182

原创 [Flink]wordcount

1)正常写法:定义一个class B,去实现接口A,并且实现它的方法a()2)解决方法:增加returns方法,指定Collector的类型。假如接口A,里面有一个方法a()没有指定Collector的类型。1)报错原因:泛型擦除。

2023-06-26 09:22:53 653

原创 [python]raise IllegalCharacterErroropenpyxl.utils.exceptions.IllegalCharacterError

raise IllegalCharacterErroropenpyxl.utils.exceptions.IllegalCharacterError 点进来,找了半天实在找不到办法..那就暴力的解决问题吧,最起码运行完了,输出结果是对的。

2023-06-09 11:17:29 512

原创 [python]mac pycharm import pandas

Mac pycharm 安装pandas

2023-06-08 14:48:00 161

原创 [linux]shell if 累加

【代码】[linux]shell if 累加。

2023-05-29 17:06:34 271

原创 [Linux]for循环会将含有空格的一行变为多行

【代码】[Linux]for循环会将含有空格的一行变为多行。

2023-05-25 14:53:31 448

原创 [excel]将文本导入到excel数据量变少

二、解决:使用excel打开(WPS没有这个数据这个菜单)选择不检测数据类型,否则日期会更改格式。直接粘贴或者直接往里拖都会变少。

2023-05-25 14:48:32 284

原创 [excel]升序

圈起来,双击这个点就可以了。

2023-04-18 15:34:40 85

原创 [Flink]第五章DataStream API

DataStream(数据流)本身是Flink中一个用来表示数据集合的类,我们编写的Flink代码其实就是基于这种数据类型的处理,所以这套核心API就以DataStream命名。由于新版本已经实现了流批一体,所以DataSet API将被弃用,官方推荐统一使用DataStream API来处理流数据和批数据。用DataStream上API对数据进行一连串的调用,就叫作数据流的"转换"(transformation)。3、定义基于数据的转换操作(transformation)2、读取数据源(source)

2023-04-17 17:17:08 87

原创 [hive]join on字段为null

join的时候,坐标null字段是关联不上的右表字段的。

2023-03-20 14:21:52 324

原创 [flink]系统架构

1、任务并行第一条数据在source读取完后,在map()在转换,这时,source可以处理下一条数据。即不同的操作(任务)可以同时处理。但是这样,多条数据同时过来,需要一条一条运行,会需要等待。2、数据并行将一个算子分成多个子任务,这样算子可以进行同时计算。无论在代码中设置,还是在提交应用时增加-p参数,都不是必须的,因此,在没有指定并行度的时候,就会采用配置文件中的集群默认并行度。在开发环境中(idea),没有配置文件,默认并行度就是当前机器CPU的核数。

2023-03-15 17:21:16 324

原创 [scala]scala文件输出发现少数据

解决:必须调用out_flile.close,将缓冲区写到磁盘。

2023-03-13 16:12:35 76

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除