自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(354)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive之greatest和least函数

greatest(col_a, col_b, ..., col_n)比较n个column的大小,过滤掉null或对null值进行处理,当某个column中是string,而其他是int/double/float等时,返回null;

2024-08-13 16:48:46 602

原创 hive表添加字段

alter table 表名 add columns (列名 string COMMENT '列注释');

2023-06-20 15:25:30 270

原创 Mac中idea常用快捷键

3.command+/ 对代码进行注释,并且自动移动到下一行。2.command+shift+F 进行工程和模块中的文件搜索。6.command+option+⬅️ : 返回上一步代码。4.option+command+L 进行格式化代码。7.command+option+➡️: 回到下一步代码。10.command+option+M: 自动抽取方法。9.command+option+V: 自动抽取变量。8.command+E: 查找最近查看的文件。未完待续~~~后续会继续更新~

2023-06-18 23:36:32 2215

原创 kafka消费者问题

在消费者所在服务器中配置hosts文件。ip:9092 机器名。

2023-06-15 18:37:33 388

原创 Hive Container 内存溢出问题解决

如果设置10G内存内存溢出则可以执行set hive.tez.container.size=12288,此参数的单位是MB;通过set hive.tez.container.size可以查看默认的container内存;由此可以看出单个 container设置的是10GB,已经超出10GB;

2023-06-01 11:02:11 512

原创 Linux命令之grep -w

默认是匹配字符, -w 选项默认匹配一个单词。

2023-05-22 11:39:34 1168

原创 hive数据存储格式

压缩率(Compression rate),描述压缩文件的效果名,是文件压缩后的大小与压缩前的大小之比,例如:把100m的文件压缩后是90m,压缩率为90/100*100%=90%,压缩率一般是越小越好,但是压得越小,解压时间越长。解压速度是指将一个通过软件压缩的文件释放到目标地址,恢复为压缩前文件的速度。

2023-02-14 22:21:34 1136 1

原创 String.valueOf()方法的使用

一、由基本数据型态转换成String  String 类别中已经提供了将基本数据型态转换成 String 的 static 方法 ,也就是String.valueOf()这个参数多载的方法 。有以下几种:(1)String.valueOf(boolean b): 将 boolean 变量 b 转换成字符串(2)String.valueOf(char c): 将 char 变量 c 转换成字符串(3)String.valueOf(char[] data): 将 char 数组 d...

2023-02-13 22:47:53 1393

原创 hive分位数

hive分位数

2022-09-23 20:28:23 949

原创 shell读取文件最后一行数据

awk 'END {print}' file.txtsed -n '$p' file.txttail -n 1 file.txtshell实现获取文件最后一行有很多种实现方式,比如sed/awk都可以实现,要是获取一个大的文件,比如一个1000G的文件,此时用简单的sed和awk命令就很慢了,这个时候可以使用tail来实现。亲测没有问题!!!!...

2022-05-10 14:05:32 4420

原创 hive删除表数据方法

外部表insert overwrite table test_table select * fromtest_table where 1=0;insert overwrite table是覆盖数据,后面select是指使用哪里的数据进行覆盖,如果条件为空 where 1=0,那就代表清除数据。内部表仅仅删除表数据,保留表结构。方法一truncate用于删除所有的行且不能删除外部表,因为外部表里的数据并不是存放在Hive Meta store中,语句如下:truncate tab.

2022-05-09 20:02:50 16952

转载 Linux命令之find命令中的-mtime参数

mtime参数如下:-mtime n 按照文件的更改时间来找文件,n为整数。n 表示文件更改时间距离为n天 -n 表示文件更改时间距离在n天以内 +n 表示文件更改时间距离在n天以前例如:-mtime 0 表示文件修改时间距离当前为0天的文件,即距离当前时间不到1天(24小时)以内的文件。 -mtime 1 表示文件修改时间距离当前为1天的文件,即距离当前时间1天(24小时-48小时)的文件。 -mtime+1 表示文件修改时间为大于1天的文件,即距离当前时间2天(48小时)之外的文件

2021-12-12 11:26:04 4277

原创 比较英文缩写

EQU - 等于:equalNEQ - 不等于:not equalLSS - 小于:less thanLEQ - 小于或等于:equal or less thanGTR - 大于:greater thanGEQ - 大于或等于:equal or greater than

2021-12-08 13:48:08 1582

原创 pip install 安装软件指定版本

1.在下载软件的后面加上==号,写上版本号。样例: pip install 软件名==版本号2.举例1.不加版本号:pip install clickhouse-driver2.指定版本号:pip install clickhouse-driver==0.2.1

2021-11-22 11:49:32 13291

原创 Shell通过特定字符把字符串分割成数组

数据样例:/tmp/data/test.txtaaaa,bbbb,cccc,dddd#!/bin/bashfor line in `cat /tmp/data/test.txt`do str=${line//,/ }; arr=($str); echo ${arr[0]}','${arr[1]} fidone

2021-11-02 17:54:36 252

转载 shell判断一个变量是否为空方法总结

shell中如何判断一个变量是否为空shell编程中,对参数的错误检查项中,包含了变量是否赋值(即一个变量是否为空),判断变量为空方法如下:1.变量通过" "引号引起来#!/bin/shpara1=if [ ! -n "$para1" ]; then echo "IS NULL"else echo "NOT NULL"fi【输出结果】"IS NULL"2.直接通过变量判断#!/bin/shpara1=if [ ! $para1 ]; then echo ...

2021-11-02 17:39:42 1286

原创 hadoop 查看文件大小以及文件数

hadoop fs -du -s -h 文件路径

2021-11-02 16:37:22 5727

原创 python判断字典中key是否存在方法

1.使用Python自带函数实现。import json#生成一个字典test_dict = '{"1":{"name":"zhangsan","age":"1234"},"2":{"name":"lisi","age":"2"}}'#打印返回值print json.loads(test_dict).has_key("1")#结果返回True2.使用in方法。import json#生成一个字典test_dict = '{"1":{"name":"zhangsan",

2021-10-24 21:44:49 461

原创 mySql 的 -N参数和 -e参数详解

-N 代表不显示列名-e statement 执行statement格式如下:mysql -u帐号 -p密码 -N -e "SQL语句"mysql -uyonghu-pmima -N -e select * from test.test_tables;

2021-10-19 17:08:16 4170

原创 Mac 设置idea代码提示快捷键

左键点击屏幕左上角: IntelliJ IDEA 点击选项菜单:Preferences 打开设置对话框 在左侧的导航框中点击: KeyMap 找到Main menu 5.右击,Remove,然后再次右击Add KeyBoard ShortCut即可。

2021-09-26 20:19:52 1676

转载 MySql字符串拼接

一、MySQL自带字符串拼接函数CONCAT 字符串拼接 CONCAT_WS 指定字符串分割拼接字符串拼接 ① 语法:CONCAT(str1,str2…)解释:concat 拼接 str1和str2字符串, 省略号....代表可以多个字符串拼接示例:SELECT CONCAT("hello","word");SELECT CONCAT("how","are","you","?");② 语法:CONCAT_WS(separator,str1,str2…)...

2021-09-22 19:44:14 364

原创 shell删除指定行以下几行数据

sed -i '/# Partition/,+2d' formatted_ceshi.txt

2021-09-22 17:09:30 307

原创 shell删除指定行以下几行数据

sed -i '/# Partition/,+2d' formatted_ceshi.txt

2021-09-22 17:08:30 539

原创 shell删除指定行以下的几行

sed -i '/# Partition/,+2d' formatted_ceshi.txt

2021-09-22 17:07:39 433

原创 UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-3: ordinal not in range(128)

报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-3: ordinal not in range(128)解决方法,在文件开头添加:import sys;reload(sys);sys.setdefaultencoding('utf8')

2021-09-18 12:40:13 248

转载 Mysql Json类型或Text类型创建索引问题

1.JSON类型答案是不可以为Json类型建索引会报错mysql> CREATE INDEX idx1 ON user (card_pay_data(10));ERROR 3152 (42000): JSON column 'card_pay_data' cannot be used in key specification.2.text类型答案是可以的,但是需要指定长度mysql> CREATE INDEX idx2 ON user (tests);ERROR

2021-09-17 12:50:04 1414

转载 mysql创建索引相关

1.查看索引 show index from 数据库表名alter table 数据库add index 索引名称(数据库字段名称)PRIMARY KEY(主键索引)ALTER TABLE `table_name` ADD PRIMARY KEY ( `column` )UNIQUE(唯一索引)ALTER TABLE `table_name` ADD UNIQUE (`column`)INDEX(普通索引)mysql>ALTER TABLE `table_name` ADD INDEX.

2021-09-17 11:15:28 211

转载 python CST 中国标准时间格式转换

def time_format(time_string, from_format, to_format='%Y.%m.%d %H:%M:%S'): """ @时间格式转化 :param time_string: :param from_format: :param to_format: :return: """ time_struct = time.strptime(time_string,from_format) times = t.

2021-09-13 16:13:24 2206 1

转载 Flink 容错性机制- 屏障(barrier)实现原理

我们知道Flink提供了容错机制,能够在应用失败的时候重新恢复任务。这个机制主要就是通过持续产生快照的方式实现的。Flink快照主要包括两部分数据一部分是数据流的数据,另一部分是operator的状态数据。对应的快照机制的实现有主要两个部分组成,一个是屏障(Barrier),一个是状态(State)。因为Flink这里处理的数据流,数据在多个operator的DAG拓扑中持续流动,要想实现某个时刻快照可以用于系统故障恢复,必须保证这个快照,完全能够确定某一个时刻状态,这个时刻之前的数据全部处理...

2021-06-10 15:17:55 388

原创 shell awk、去重、排序

数据

2021-06-03 18:01:38 1635

原创 hdfs统计库下有多少表

#!/bin/bashcat 20210419.txt | while read line ;docountt=`hdfs dfs -ls /user/hive/warehouse/$line | grep Found | cut -d " " -f2`echo $line $counttdone

2021-04-19 16:14:42 189

原创 查看Linux服务器相关配置命令

1.查看服务器品牌和型号grep'DMI'/var/log/dmesgDMI: HP ProLiant DL380p Gen8, BIOS P70 12/20/20132.查看CPU个数cat /proc/cpuinfo | grep "physical id" | uniq | wc -l323.查看CPU核数cat /proc/cpuinfo | grep "cpu cores" | uniqcpu cores : 84.查看CPU型号cat /proc...

2021-04-13 14:41:15 173

转载 Spark Shuffle详解

Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段的数据准备和Reduce阶段的数据拷贝处理。一

2021-03-05 17:16:58 159

转载 Hive中over()函数详解

over()over() 函数在Hive中运用广泛,通常搭配row_number() ,min(),max(),sum()来使用,总结下over函数划定窗口的范围id name num 1 a 1 2 b 3 3 a 5 4 c 9 5 b 3 over() 此时每一行的窗口都是所有的行SELECT id,name,num,sum(num) over() sum1 from aaov.

2021-02-02 22:55:26 806

原创 Hbase启动和停止命令(单独启动)

启动HBase集群:bin/start-hbase.sh单独启动一个HMaster进程:bin/hbase-daemon.shstartmaster单独停止一个HMaster进程:bin/hbase-daemon.shstopmaster单独启动一个HRegionServer进程:bin/hbase-daemon.shstartregionserver单独停止一个HRegionServer进程:bin/hbase-daemon.shstopregionserver...

2021-01-07 17:21:15 1444

原创 Hadoop3 DataNode起不来

第一种情况:在hdfs-site.xml中:<property><!-- datanode进行内存和磁盘数据集块校验,更新内存中的信息和磁盘中信息的不一致情况,默认6小时,3600000毫秒是1小时--><name>dfs.datanode.directoryscan.interval</name><value>3600000</value></property>将这个...

2021-01-07 11:14:37 250

原创 Hive中mapreduce.job.reduce.slowstart.completedmaps

当hive语句在执行mapreduce job的时候,发现map还没有执行完成,reduce任务就开始。如下图所示:在mapred-site.xml配置文件中有一个参数mapreduce.job.reduce.slowstart.completedmaps,这个参数可以控制当map任务执行到哪个比例的时候就可以开始为reduce task申请资源。默认配置:<property> <name> mapreduce.job.reduce.slo

2020-12-25 17:54:31 738

转载 hive多行转多列

hive多行转多列写的不错https://blog.csdn.net/cwfreebird/article/details/91355730

2020-12-25 17:08:47 247

原创 Azkaban3.8版本安装

步骤1.安装要求a.Azkaban3以上版本需要jdk8(含)以上b.如果使用 mysql作为存储还需要安装好mysql(本次暗转采用的是azkaban自带的h2数据库)2.下载组件第一种:可以将压缩包下载到本地,然后上传到服务器网站为https://github.com/azkaban/azkaban/releases,下载tar.gz第二种:可以直接在服务器上通过git去clonegit clone https://github.com/azkaban/a..

2020-12-24 16:32:54 904 6

原创 Shell sleep指定延迟时间

#!/bin/bashsleep 1 #睡眠1秒echo "睡眠1秒"sleep 1s #睡眠1秒echo "睡眠1秒"sleep 1m #睡眠1分echo "睡眠1分"sleep 1h #睡眠1小时echo "睡眠1小时"

2020-12-21 11:44:05 598

azkaban3.9安装包

安装包

2020-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除