胖胖学编程-CSDN博客

原创 [idea]idea连接clickhouse23.6.2.18

2、在服务器登录时指定u为default在这里要指定为admin。之后在maven的package里找到这俩jar包，加到里头。直接在pom.xml加上那个lz4也是必要的不然会报错。1、要写ip而不是主机名。

2023-12-08 12:02:09 582

原创 [yarn]yarn异常

直接kill掉ck1上的nodemanager进程，这样任务可以直接在ck2和ck3上运行。第1个1000指的是要运行1000次map任务。第2个数字指的是每个map任务，要投掷多少次。一、运行一下算圆周率的测试代码，看下报错。发现ck1节点上的所有任务都无法运行。三、无法解决异常，但是需要运行任务。

2023-11-07 17:33:07 906

原创 hive报错File does not exist: /tmp/hadoop-yarn/staging/root/.staging/job_1699234747075_0001/job_.jhist

设置了hive metastore高可用，但未启动zookeeper!无语了，刚好前一天服务器掉电了，还以为是yarn坏了。

2023-11-07 16:59:24 608

原创 [sqoop]hive导入mysql,其中mysql的列存在默认值列

直接在hive表中去掉有默认值的了列，在sqoop导入时,指定非默认值列即可，

2023-10-10 11:19:21 554

原创 [hive]解决group by 字段超过系统规定64个

用开窗函数即可where rn=1。

2023-10-10 11:13:56 193

原创 [FineReport]安装与使用(连接Hive3.1.2)

需求：我有一张表dws.dws_news_aggre这表有21列，我想这个21列全展示出来，并且仅展示10000条。并对其中的19列做一个查询框，方便查询。/home/data_warehouse/module/tomcat_bak/webapps/webroot/WEB-INF/reportlets目录下。解压，把里头的jar全放进去（这个适用Hive2版本的包，对于Hive3也是好用的）字符串需要拼接单引号(我的这些字段全是字符串类型的),数值类型的则不需要。编辑为文本框，选中扳手，再选择第一个空的。

2023-09-27 17:27:18 921 1

原创 [hive]hive不允许分区字段为中文或特殊字段

【代码】[hive]hive不允许分区字段为中文或特殊字段。

2023-09-25 12:14:00 303

原创 [python]centos7安装python

我们装上openssl那几个也能编译。注：如果有高版本的则需要先卸载。

2023-09-21 11:51:51 126

原创 [FineReport] 连接hive3Caused by: java.lang.NoClassDefFoundError: org/apache/http/client/HttpClient

把里头的jar包单拿出来，放到 /home/data_warehouse/module/tomcat/webapps/webroot/WEB-INF/lib 目录下。

2023-09-20 16:19:34 98

原创 [sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

（2）删除Sqoop安装目录的lib目录中的commons-lang3-3.4.jar，并添加commons-lang-2.6.jar(在$HADOOP_HOME/share/hadoop/yarn/timelineservice/lib/commons-lang-2.6.jar下可以找到)需在sqoop-1.4.7-bin_hadoop2.6.0/lib下添加 hive-*.jar、datanucleus-*.jar、derby-10.14.1.0.jar、javax.jdo-3.2.0-m3.jar。

2023-09-19 11:40:14 511

原创 [hive]搭建hive3.1.2hiveserver2高可用可hive metastore高可用

没用里头的hive on spark,测试后发现版本冲突。

2023-09-19 10:18:39 462

原创 [hive]报错:Caused by: java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver

我自己的项目产生的原因是由于“3.版本不匹配”问题导致的。经过排查“ mysql-connector-java.jar ”包 5XX开始的版本路径是：“com.mysql.jdbc.Driver”，而6XX及以上开始的版本路径是：“com.mysql.cj.jdbc.Driver”。但是还是报Caused by: java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver。装元数据的mysql版本不用管，不用重装mysql。

2023-09-15 16:49:21 261

原创 [java]java读取excel

Java读取excel的方式

2023-09-12 17:42:16 77

原创 [ES]二基础 |

默认为true(创建)，为所有的字段都创建倒排索引。false不参与搜索，像商品的图片是个url这种就不需要参与搜索，并不是所有的字段都需要创建搜索。②数值：long、integer、short、byte、double、float（es的底层是用java实现的，所以和java一致）ES中通过Restful请求操作索引库、文档。①字符串：text(可分词的文本)、keyword（精确值，如品牌、国家、ip等不拆分的数据，这种拆分没意义）⑤object对象，对象可以任意嵌套，对象的子属性可以参与搜索。

2023-08-29 10:40:45 821

原创 [ES]mac安装es、kibana、ik分词器

可选的有standard、english、chinese但是他们的中文都是一个字分一个词。必须创建，直接解压到plugins目录下会报错。点击这个，在里面写就行了。

2023-08-28 15:07:30 1232

原创 [ES]一基础|正排索引和倒排索引 | ES和MySQLd的对比 | 默认分词器 | IK分词器 | 扩展、停用ik分词器的词库

参考。

2023-08-17 16:47:33 419

原创 [centos]设置主机名

3、打开一个新链接就可以了。

2023-08-14 08:42:53 383

原创 [ubuntu]创建root权限的用户该用户登录后自动切换为root用户

passwd 用户名。

2023-08-09 09:42:42 1206

原创 [excel]vlookup函数对相同的ip进行关联

第二个:第二个sheet要匹配的数据，因为要和第一个sheet中的ip进行匹配，所以ip必须放在第一列。第三个：第二个sheet里我们要的字，ip列为第1列，其他列序号递增，我们要的是漏洞名称，是第2列，填入2。第四个：匹配条件是精确匹配还是近似匹配，这边是精确匹配。另外近似匹配匹配的数据比较乱..一般不用。第一个:当前表要匹配的列，选择第一个sheet当前行需要处理的ip即可。找到sheet1在sheet2中存在的ip，也就是找到有漏洞的ip。vlookup函数有4个参数。按回车就出现了当前行的结果。

2023-08-09 09:08:23 992

原创 [redis]设置永久密码

找到# requirepass foobared这一行，修改成requirepass 123456，123456是密码，大家自定义。进入redis的src目录下，执行命令：redis-server ../redis.conf。进入redis目录，编辑redis.conf文件。重启redis，建议先杀掉redis进程再重启。注意requirepass前不允许有空格。执行命令：vim redis.conf。

2023-08-07 09:30:12 308

原创 [sqoop]将hive查询后的数据导入到MySQL

一、知识点export:将Hive的表导入到mysql叫导出搜了很多，发现sqoop在hive导出到mysql时1）不支持where参数对数据进行过滤。2）不支持指定hive表的方式导出，只能指定Hive目录进行导出。二、操作。

2023-07-25 11:25:16 2399

原创 [kafka]kafka如何保证消息有序

生产时：producer在把消息发送到partition的时候，当key非空时，用key的hash值对partition个数取模，决定要把消息发送到哪个partition上，可以指定一样的key，这样这个key的消息在单个partition内是有序的。消费时：在一个消费者组中的多个消费者消费一个topic时，一个消费这组中只能有一个消费者消费该消息，topic下的每个分区只属于组中的一个消费者，因此是有序的。因此kafka使用多partition的概念，并且只保证单partition有序。

2023-07-21 16:07:17 1583

原创 [centos]安装mysql8.0.26

1、首先，根据自己的机子到MySQL官网下载对应的数据库https://dev.mysql.com/downloads/mysql/2、卸载mariadb，并解压Mysql。

2023-07-19 17:11:45 1175

原创 [Centos]修改当前路径显示为全路径

找到[ "$PS1" = "\\s-\\v\\\$ " ] && PS1="[\u@\h \W]\\$ " 把里面的大写W改为小写w。

2023-07-19 15:10:22 243

原创 [mysql]tar安装mysql报错./mysqld: /lib64/libstdc++.so.6: version `CXXABI_1.3.11‘ not found（废弃）

根据报错信息发现最多需要2.34版本，因此我们需要下载2.34版本。2、安装anaconda因为这里头有这个libstdc++.so的包可以直接用。注：这个libstdc++.so.6包，新的肯定包含有旧版本，所以下载新的就行。3、找到anaconda3中的libstdc++.so包、4、将anaconda中的该包复制到/lib64目录下。5、修改软连接，即让这个软连接指向最新版本即可。下载需要的版本，大版本必里含有小版本的包。继续升级glibc-2.35。可以看到里面有我们需要的版本。

2023-07-19 13:48:52 9859

原创 [数组]有序数组的平方

因为给定数组是按照顺序排序的，虽然有正负，但两头肯定是绝对值最大的。new一个结果数组。从后往前(值即从大到小)向结果数组内放入结果元素。一个头指针一个尾指针，用来判断哪边的更大，将大的值放入结果数组。

2023-07-14 09:54:13 547

原创 [数组]移除元素

2）整体思路不行，我这边是两头找，前面找的是要删掉的元素，后面找的是不等于要删掉的元素值的位置，然后两者交换。fast指针:指向新数组(删除目标值之后)里需要的元素。1）没必要设置成-1，直接按照val值查找是一样的。我用好长时间才写出来，看了题解感觉他思路贼好。slow指针:需要更新的下标位置。1）用快慢指针的思路来解决问题。一、leecode题目链接。

2023-07-14 09:13:50 660

原创 [数仓]事实表：周期快照 | 累计快照 | 无事实的事实表 | 迟到的事实表 | 累积度量

除数字类型的度量值外，事实表总是包含所引用维度表的外键，也可能包含可选的退化维度键或时间戳。数据分析的实质就是基于事实表开展计算和聚合操作。

2023-07-12 11:30:06 680

原创 [sqoop]导入数据

增量导入命令执行后，在控制台输出的最后部分，会打印出后续导入需要使用的last-value，当周期性执行导入时，应该用这种方式指定--last-value参数的值，以确保只导入新的活修改过的数据。可以通过一个增量导入的保存作业自动执行这个过程，这是适合重复执行增量导入的方式。--last-value 指定已经导入数据的被检查列的最大值（第一次需要指定，以后会自动生成）--check-column 在确定应该导入哪些行时，指定被检查的列。sqoop提供增量导入模式，用于只导入比已经导入行新的数据行。

2023-07-11 09:43:42 3182

原创 [Flink]wordcount

1）正常写法：定义一个class B,去实现接口A,并且实现它的方法a()2）解决方法：增加returns方法,指定Collector的类型。假如接口A,里面有一个方法a()没有指定Collector的类型。1）报错原因：泛型擦除。

2023-06-26 09:22:53 653

原创 [python]raise IllegalCharacterErroropenpyxl.utils.exceptions.IllegalCharacterError

raise IllegalCharacterErroropenpyxl.utils.exceptions.IllegalCharacterError 点进来,找了半天实在找不到办法..那就暴力的解决问题吧,最起码运行完了,输出结果是对的。

2023-06-09 11:17:29 512

原创 [python]mac pycharm import pandas

Mac pycharm 安装pandas

2023-06-08 14:48:00 161

原创 [linux]shell if 累加

【代码】[linux]shell if 累加。

2023-05-29 17:06:34 271

原创 [Linux]for循环会将含有空格的一行变为多行

【代码】[Linux]for循环会将含有空格的一行变为多行。

2023-05-25 14:53:31 448

原创 [excel]将文本导入到excel数据量变少

二、解决：使用excel打开(WPS没有这个数据这个菜单)选择不检测数据类型,否则日期会更改格式。直接粘贴或者直接往里拖都会变少。

2023-05-25 14:48:32 284

原创 [excel]升序

圈起来，双击这个点就可以了。

2023-04-18 15:34:40 85

原创 [Flink]第五章DataStream API

DataStream(数据流)本身是Flink中一个用来表示数据集合的类，我们编写的Flink代码其实就是基于这种数据类型的处理，所以这套核心API就以DataStream命名。由于新版本已经实现了流批一体，所以DataSet API将被弃用，官方推荐统一使用DataStream API来处理流数据和批数据。用DataStream上API对数据进行一连串的调用，就叫作数据流的"转换"(transformation)。3、定义基于数据的转换操作(transformation)2、读取数据源(source)

2023-04-17 17:17:08 87

空空如也

空空如也