小鸟医人儿~-CSDN博客

原创 hive通过正则过滤其他字段

答案是有的。首先需要设置一个参数：然后指定要剔除哪个字段：select1。

2024-04-22 16:47:50 760 1

原创 Sqoop将mysql导入hive时split-by为文本解决

【代码】Sqoop将mysql导入hive时split-by为文本解决。

2023-12-29 11:13:37 597

问题描述：将字段类型改为decima(2,0)的改成int类型，修改语句执行成功，但是查询的时候报错了，报错信息提示parquet文件对应字段类型是decimal(2,0)，设置的字段类型与实际存储的类型不一致。解决方案，其实没啥好的解决方案，只能是重新建一张表，字段类型设置成你想改的类型，然后通过动态分区的方式，将老表中的数据导入新表，这样完成类型转换。先说恢复方案吧，如果表不能查询，干啥都是白搭了，恢复方案就是把类型改回原来的类型，此时，表内数据可查，一切恢复到原点。

2023-08-10 15:56:41 401

原创 hdfs设置目录过文件副本数

此时，/ingest目录下的所有文件副本都变成了2，会修改之前的文件的副本数，文件大小发生变化，但是新传的文件还是默认副本数。所以这个命令的作用是改变现有目录下文件的副本数，并不是设置一个副本数为2的目录，上传到这个目录下的副本数仍未默认副本数。hdfs dfs -ls /ingest 结果的第二列就是副本数。hdfs fsck /ingest 命令查看目录块存储。1.上传文件时指定存储副本数。2.设置目录的副本数。

2023-07-31 17:09:41 1425

原创 hive查询时，通过正则查询除了某个字段的其他所有字段

【代码】hive查询时，通过正则查询除了某个字段的其他所有字段。

2023-07-31 10:40:04 476

原创 hive建表双分隔符-csv-snappy

双分隔符CSVsnappy压缩。

2023-06-13 17:13:48 156

原创 sqoop命令

2023-06-13 16:13:54 75

原创图像分类00-为啥想做机器视觉

读研的时候，因为是计算机专业，倒是有机器学习相关的课程，但是好几年不用，甚至不去想，也早就忘的一干二净了，只记得有这么个算法，具体是怎么实现的，一点印象都没有，所以我觉得就这么突然的去研究算法，压力还是挺大的。所以摆在眼前的无非就是2条路，要么转管理，要么就搞点新技术，目前是在银行上班，转管理是够呛，估计要好几年之后才有机会，学新技术吧，硬件相关的没啥兴趣，学不动，只能是搞搞算法研究研究，最起码学历够，也算是有点基础，有点兴趣。

2023-04-02 21:22:03 73

原创 anaconda中离线安装pytorch（CPU版本）

由于网络原因，在pytorch官网中，按照官网提供的在线下载方式“conda install pytorch torchvision torchaudio cpuonly -c pytorch”，是无法下载的，下载十分缓慢，到一定时间后就直接断开，无法下载了；我也在网络中搜索了很多方法，比如让切换数据源的，换了清华的数据源之后，还是原来的情况，虽然下载的速度快了那么一丢丢，但是还是无法下载。上图中，cpu就是指的cpu版本，cp指的是python版本，linux、win指定的是系统。4.检查是否安装成功。

2023-04-01 21:52:03 549

原创 hive新增字段，修改列名，调整顺序

alter table db.tableName change col1 col1新名 string cascade;备注：replace也可以删除字段，replace里面没有的字段会被删除。如果不需要更改col1的类型，后面的类型和原类型保持一致。1种是一个自段一个自段的调整。2种，直接按照新的表结构调整。

2023-03-30 12:21:35 2216

原创生成keytab文件，且能使用密码登录kerberos

提示输入密码的时候，输入密码即可

2023-01-28 11:37:10 422

原创禁用透明大页面

1.禁用透明大可面1）在配置文件中增加最后两句话（echo的）vi /etc/rc.d/rc.local#！/bin/bash# THIS FILE IS ADDED FOR COMPATIBILITY PURPOSES# It・is・highly advisable to create own systend services or udey rules# to run scripts during boot instead of using this file.# In contrast

2023-01-17 17:58:12 193

原创 shell脚本中让打印在控制台的东西有颜色

输出绿色的文字#!/bin/bashecho " "echo -e "\003[32m **************************************"echo " ** Congratulation!The version execute is successful! ** "echo -e "\003[32m **************************************"echo -e "\003[0m"执行的效果，打印的都是绿色的：***********

2021-10-11 15:07:50 302

原创 Linux中cp直接覆盖

#直接覆盖/opt目录下的a.txt文件/bin/cp -rf a.txt /opt

2021-09-30 16:46:40 285

原创 hive中历史数据载入

需求：历史数据是直接发送到hdfs，目录为：/userftp/文件名/分区名/数据文件。需要的操作为，将这些数据导入到hive中ods层对应的表中，但是对方发过来的数据文件的分隔符与本系统表不符，所以采用的创建临时表的方式。1.创建临时表create table buffer.tmp_a( aaa string, bbb string, ccc string)comment '测试a表'--分区字段与对方的分区名保持一致，要不然到后面你还得修改文件名partition by (etl

2021-08-30 11:06:30 344

原创 tar 报错 tar exeting with failture status due to previous errors

这是一个宽泛的报错，只是说在执行tar命令的时候，上一步有错误，具体哪些错误，这里是看不到的。所以需要让tar命令打印更详细一点的东西原命令:tar -czvf a.tar.gz ./a改为: tar -czvf a.tar.gz ./a >/dev/null就会打印报错信息了...

2021-08-27 17:40:07 226

原创 impala、hive、phoenix、hbase映射测试

**需求：想在phoenix上维护两张宽表，一张作为即席查询使用，只有一天的数据、一张作为历史表。宽表的特点是：由多个表组合而成，但是每张表的到数时间不一致，有的表先到，有的表可能隔天才到。想要达到的效果：即席查询用的宽表是来一张表就加载一张表的数据，没来的等来了再加载，中间过程有查询的时候，查询结果是：已经更新的字段（已经到数的表字段）和未更新的字段（没有到数的表字段）要求：即席查询的宽表中的数据，既要在impala、hive中可查，也要在phoenix、habse中可查。**目前方案：假设：

2021-08-10 16:52:41 502

原创 hive增加字段后，原分区字段数据变NULL，impala报错schema

1.hvie增加字段alter table student add columns(sex string comment ‘性别’，beizhu string comment’备注’)cascade；2.调整顺序alter table student change sex sex string after beizhu cascade;#注意：cascade一定是要加的，要不然之前的分区原本有数据的列，在调整顺序后会变NULL，之前的分区重新导数也是为NULL3.如果使用了impala，调整

2021-07-30 10:14:43 687

原创 hive中快速建一张表结构一样的表

1：假设仓库的ads中有一张表a，我想在ods层建一张和表a的表结构一样的表b2.create table ods.brow format delimited fields terminated by ‘\001’stored as parquetas select * from ads.a where 1=2;3.优点：快速，不需要手动创建，字段类型一样，可以修改分隔符个存储格式4.缺点：创建目标表的时候不支持分区5.解决方案–自己写脚本建表#!/bin/bashtable_name

2021-07-21 16:59:09 1707

原创 Flink3_无界流计算wordcount

测试无界流，我是读取的winwods端口数据，具体方法可以参考我的另一篇文章’往windows端口发送数据’package day01;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fl

2021-05-28 17:02:36 279 1

原创 window中往接口发送数据

linux中的命令nc -lk 端口号windows中往端口发送数据首先，需要安装nc地址：url：https://eternallybored.org/misc/netcat/下载之后，把文件解压，然后把里面的nc.exe文件复制到windows用户目录下，我的是放在了C:\Users\Administrator目录下了，然后在cmd命令行中输入“nc -L -p 9999”命令就能往这个端口里面发送数据了...

2021-05-28 16:52:31 2375

原创 flink2-有界流计算wordcount

流式处理分为有界流和无界流1）有界流有界流就是读取的数据是有界限的，在流不关闭的情况下，能读取到数据的尽头2）无界流在人为不干预的情况下，流一直在，不会停，数据没有边界package day01;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.tup

2021-05-28 16:07:25 229 1

原创 Flink1-用flink批处理计算wordCount

package day01;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.*;import org.apache.f

2021-05-28 14:44:43 114

原创生成keytab脚本

#!/bin/bash#判断目录是否存在[ ! -d /cib/keytabs/users ] && mkdir /cib/keytabs/usersuser=$1order=$2path='/cib/keytabs/users'cd $path#生成keytabcase $order in"add"){if [ -n "$user" ];then echo "正在生成 $user.keytab" kadmin.local -q "addprinc-randkey

2021-05-21 10:13:33 1142

原创磁盘扩容

查看磁盘可用剩余空间vgs |grep rootvg |awk ‘{print $NF}’扩容#给root目录增加4个G的容量lvextend -L +4g -n /dev/rootvg/rootxfs_growfs /dev/rootvg/root

2021-05-21 09:53:01 112

原创 root用户scp到普通用户的时候不再需要输入密码

1.root与root用户scp不输入密码需求：服务器1的root用户 scp 文件到服务器2的root权限方案：配置两台服务器之间的免密登录步骤：1）以root用户登录服务器12）生成root用户的公钥ssh-keygen -t rsa敲3次回车，生成root的公钥，位置在/root/.ssh目录下3）将服务器1的root用户的公钥发送给服务器2ssh-copy-id 10.7.48.222 （服务器2的ip地址）此时，服务器1 就可以直接ssh 到服务器2，不需要输入密码scp a

2021-05-17 10:37:32 618

原创 shell脚本执行mysql文件

#!/bin/bashuser="aaa"host="10.4.2.90"pwd="aaa"db_name="db1"SQL="truncate table table1;"mysql -h"$host" -u"$user" -p"$pwd" -D"$db_name" -B -e "$SQL"

2021-05-12 09:22:43 364

原创 shell脚本执行oracle的sql文件

模板sqlplus -S 用户名/密码@库的sid <<EOF@sql文件commit;quitEOF实例#!/bin/bashdb_user=aaadb_pass=aaainstace=idsspath='/cib/a.sql'sqlplus -S ${db_user}/${db_pass}@${instace} <<EOF@${path}commit;quitEOF

2021-05-12 09:13:33 3537 1

原创 hive中执行.sql文件

hive -ehive -e “source 路径/文件.sql”hive -e ""也可以直接执行sql语句hive -f#hive文件/cib/a.sql中的语句：select * from student where etl_date='${hivevar:input_date}' and jxsj='${hivevar:yesterday}';执行a.sql文件`hive -hivevar input_date=20200202 -hivevar yesterday=2020020

2021-05-11 15:48:09 1169

原创 Linux服务器中 anaconda离线安装以及相关库

1.下载安装包下载安装包网址：https://repo.anaconda.com/archive/下载Anaconda3-5.2.0-Linux-x86_64.sh包2.yum安装bzip2在安装conda之前，要先安装bzip2，因为安装包中解压缩需要yum -y install bzip23.使用cib用户安装condash Anaconda3-5.2.0-Linux-x86_64.sh中间需要输入yes和回车4.安装完成后，配置环境变量vim /etc/profile在最后一行配

2021-05-11 10:20:14 2863 1

原创 hive指定存储格式为parquet，并导入txt数据文件

创建目标表create table student(name string comment ’ xingming’,sex string comment ’ sex’)partitioned by (etl_date String)row format delimited fields terminated by ‘|’ stored as parquet;创建临时表要求：分隔符一致create table student_tmp(name string comment ’ xin

2021-05-11 09:53:26 1556

原创 oracle查询时间及格式

oracle查询时间及格式**当前时间：**20200908当天日期sql: select to_char(sysdate,‘yyyymmdd’)as nowtime from dual;结果： 20200908昨天日期sql: select to_char(sysdate-1,‘yyyymmdd’)as nowtime from dual;结果：20200907去年今天sql: select to_char(add_months(sysdate,-12),‘yyyymmdd’)

2020-09-23 14:24:50 506

qq_40302627的博客

原创 hive切换spark引擎倒入数据乱码

原创 hive通过正则过滤掉不想查询的字段