- 博客(35)
- 收藏
- 关注
原创 hive存储parquet格式不要直接修改字段类型
问题描述:将字段类型改为decima(2,0)的改成int类型,修改语句执行成功,但是查询的时候报错了,报错信息提示parquet文件对应字段类型是decimal(2,0),设置的字段类型与实际存储的类型不一致。解决方案,其实没啥好的解决方案,只能是重新建一张表,字段类型设置成你想改的类型,然后通过动态分区的方式,将老表中的数据导入新表,这样完成类型转换。先说恢复方案吧,如果表不能查询,干啥都是白搭了,恢复方案就是把类型改回原来的类型,此时,表内数据可查,一切恢复到原点。
2023-08-10 15:56:41
401
原创 hdfs设置目录过文件副本数
此时,/ingest目录下的所有文件副本都变成了2,会修改之前的文件的副本数,文件大小发生变化,但是新传的文件还是默认副本数。所以这个命令的作用是改变现有目录下文件的副本数,并不是设置一个副本数为2的目录,上传到这个目录下的副本数仍未默认副本数。hdfs dfs -ls /ingest 结果的第二列就是副本数。hdfs fsck /ingest 命令查看目录块存储。1.上传文件时指定存储副本数。2.设置目录的副本数。
2023-07-31 17:09:41
1425
原创 图像分类00-为啥想做机器视觉
读研的时候,因为是计算机专业,倒是有机器学习相关的课程,但是好几年不用,甚至不去想,也早就忘的一干二净了,只记得有这么个算法,具体是怎么实现的,一点印象都没有,所以我觉得就这么突然的去研究算法,压力还是挺大的。所以摆在眼前的无非就是2条路,要么转管理,要么就搞点新技术,目前是在银行上班,转管理是够呛,估计要好几年之后才有机会,学新技术吧,硬件相关的没啥兴趣,学不动,只能是搞搞算法研究研究,最起码学历够,也算是有点基础,有点兴趣。
2023-04-02 21:22:03
73
原创 anaconda中离线安装pytorch(CPU版本)
由于网络原因,在pytorch官网中,按照官网提供的在线下载方式“conda install pytorch torchvision torchaudio cpuonly -c pytorch”,是无法下载的,下载十分缓慢,到一定时间后就直接断开,无法下载了;我也在网络中搜索了很多方法,比如让切换数据源的,换了清华的数据源之后,还是原来的情况,虽然下载的速度快了那么一丢丢,但是还是无法下载。上图中,cpu就是指的cpu版本,cp指的是python版本,linux、win指定的是系统。4.检查是否安装成功。
2023-04-01 21:52:03
549
原创 hive新增字段,修改列名,调整顺序
alter table db.tableName change col1 col1新名 string cascade;备注:replace也可以删除字段,replace里面没有的字段会被删除。如果不需要更改col1的类型,后面的类型和原类型保持一致。1种是一个自段一个自段的调整。2种,直接按照新的表结构调整。
2023-03-30 12:21:35
2216
原创 禁用透明大页面
1.禁用透明大可面1) 在配置文件中增加最后两句话(echo的)vi /etc/rc.d/rc.local#!/bin/bash# THIS FILE IS ADDED FOR COMPATIBILITY PURPOSES# It・is・highly advisable to create own systend services or udey rules# to run scripts during boot instead of using this file.# In contrast
2023-01-17 17:58:12
193
原创 shell脚本中让打印在控制台的东西有颜色
输出绿色的文字#!/bin/bashecho " "echo -e "\003[32m **************************************"echo " ** Congratulation!The version execute is successful! ** "echo -e "\003[32m **************************************"echo -e "\003[0m"执行的效果,打印的都是绿色的:***********
2021-10-11 15:07:50
302
原创 hive中历史数据载入
需求:历史数据是直接发送到hdfs,目录为:/userftp/文件名/分区名/数据文件。需要的操作为,将这些数据导入到hive中ods层对应的表中,但是对方发过来的数据文件的分隔符与本系统表不符,所以采用的创建临时表的方式。1.创建临时表create table buffer.tmp_a( aaa string, bbb string, ccc string)comment '测试a表'--分区字段与对方的分区名保持一致,要不然到后面你还得修改文件名partition by (etl
2021-08-30 11:06:30
344
原创 tar 报错 tar exeting with failture status due to previous errors
这是一个宽泛的报错,只是说在执行tar命令的时候,上一步有错误,具体哪些错误,这里是看不到的。所以需要让tar命令打印更详细一点的东西原命令:tar -czvf a.tar.gz ./a改为: tar -czvf a.tar.gz ./a >/dev/null就会打印报错信息了...
2021-08-27 17:40:07
226
原创 impala、hive、phoenix、hbase映射测试
**需求:想在phoenix上维护两张宽表,一张作为即席查询使用,只有一天的数据、一张作为历史表。宽表的特点是:由多个表组合而成,但是每张表的到数时间不一致,有的表先到,有的表可能隔天才到。想要达到的效果:即席查询用的宽表是来一张表就加载一张表的数据,没来的等来了再加载,中间过程有查询的时候,查询结果是:已经更新的字段(已经到数的表字段)和未更新的字段(没有到数的表字段)要求:即席查询的宽表中的数据,既要在impala、hive中可查,也要在phoenix、habse中可查。**目前方案:假设:
2021-08-10 16:52:41
502
原创 hive增加字段后,原分区字段数据变NULL,impala报错schema
1.hvie增加字段alter table student add columns(sex string comment ‘性别’,beizhu string comment’备注’)cascade;2.调整顺序alter table student change sex sex string after beizhu cascade;#注意:cascade一定是要加的,要不然之前的分区原本有数据的列,在调整顺序后会变NULL,之前的分区重新导数也是为NULL3.如果使用了impala,调整
2021-07-30 10:14:43
687
原创 hive中快速建一张表结构一样的表
1:假设仓库的ads中有一张表a,我想在ods层建一张和表a的表结构一样的表b2.create table ods.brow format delimited fields terminated by ‘\001’stored as parquetas select * from ads.a where 1=2;3.优点:快速,不需要手动创建,字段类型一样,可以修改分隔符个存储格式4.缺点:创建目标表的时候不支持分区5.解决方案–自己写脚本建表#!/bin/bashtable_name
2021-07-21 16:59:09
1707
原创 Flink3_无界流计算wordcount
测试无界流,我是读取的winwods端口数据,具体方法可以参考我的另一篇文章’往windows端口发送数据’package day01;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fl
2021-05-28 17:02:36
279
1
原创 window中往接口发送数据
linux中的命令nc -lk 端口号windows中往端口发送数据首先,需要安装nc地址:url:https://eternallybored.org/misc/netcat/下载之后,把文件解压,然后把里面的nc.exe文件复制到windows用户目录下,我的是放在了C:\Users\Administrator目录下了,然后在cmd命令行中输入“nc -L -p 9999”命令就能往这个端口里面发送数据了...
2021-05-28 16:52:31
2375
原创 flink2-有界流计算wordcount
流式处理分为有界流和无界流1)有界流有界流就是读取的数据是有界限的,在流不关闭的情况下,能读取到数据的尽头2)无界流在人为不干预的情况下,流一直在,不会停,数据没有边界package day01;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.tup
2021-05-28 16:07:25
229
1
原创 Flink1-用flink批处理计算wordCount
package day01;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.*;import org.apache.f
2021-05-28 14:44:43
114
原创 生成keytab脚本
#!/bin/bash#判断目录是否存在[ ! -d /cib/keytabs/users ] && mkdir /cib/keytabs/usersuser=$1order=$2path='/cib/keytabs/users'cd $path#生成keytabcase $order in"add"){if [ -n "$user" ];then echo "正在生成 $user.keytab" kadmin.local -q "addprinc-randkey
2021-05-21 10:13:33
1142
原创 磁盘扩容
查看磁盘可用剩余空间vgs |grep rootvg |awk ‘{print $NF}’扩容#给root目录增加4个G的容量lvextend -L +4g -n /dev/rootvg/rootxfs_growfs /dev/rootvg/root
2021-05-21 09:53:01
112
原创 root用户scp到普通用户的时候不再需要输入密码
1.root与root用户scp不输入密码需求:服务器1的root用户 scp 文件到服务器2的root权限方案:配置两台服务器之间的免密登录步骤:1)以root用户登录服务器12)生成root用户的公钥ssh-keygen -t rsa敲3次回车,生成root的公钥,位置在/root/.ssh目录下3)将服务器1的root用户的公钥发送给服务器2ssh-copy-id 10.7.48.222 (服务器2的ip地址)此时,服务器1 就可以直接ssh 到服务器2,不需要输入密码scp a
2021-05-17 10:37:32
618
原创 shell脚本执行mysql文件
#!/bin/bashuser="aaa"host="10.4.2.90"pwd="aaa"db_name="db1"SQL="truncate table table1;"mysql -h"$host" -u"$user" -p"$pwd" -D"$db_name" -B -e "$SQL"
2021-05-12 09:22:43
364
原创 shell脚本执行oracle的sql文件
模板sqlplus -S 用户名/密码@库的sid <<EOF@sql文件commit;quitEOF实例#!/bin/bashdb_user=aaadb_pass=aaainstace=idsspath='/cib/a.sql'sqlplus -S ${db_user}/${db_pass}@${instace} <<EOF@${path}commit;quitEOF
2021-05-12 09:13:33
3537
1
原创 hive中执行.sql文件
hive -ehive -e “source 路径/文件.sql”hive -e ""也可以直接执行sql语句hive -f#hive文件/cib/a.sql中的语句:select * from student where etl_date='${hivevar:input_date}' and jxsj='${hivevar:yesterday}';执行a.sql文件`hive -hivevar input_date=20200202 -hivevar yesterday=2020020
2021-05-11 15:48:09
1169
原创 Linux服务器中 anaconda离线安装以及相关库
1.下载安装包下载安装包网址:https://repo.anaconda.com/archive/下载Anaconda3-5.2.0-Linux-x86_64.sh包2.yum安装bzip2在安装conda之前,要先安装bzip2,因为安装包中解压缩需要yum -y install bzip23.使用cib用户安装condash Anaconda3-5.2.0-Linux-x86_64.sh中间需要输入yes和回车4.安装完成后,配置环境变量vim /etc/profile在最后一行配
2021-05-11 10:20:14
2863
1
原创 hive指定存储格式为parquet,并导入txt数据文件
创建目标表create table student(name string comment ’ xingming’,sex string comment ’ sex’)partitioned by (etl_date String)row format delimited fields terminated by ‘|’ stored as parquet;创建临时表要求:分隔符一致create table student_tmp(name string comment ’ xin
2021-05-11 09:53:26
1556
原创 oracle查询时间及格式
oracle查询时间及格式**当前时间:**20200908当天日期sql: select to_char(sysdate,‘yyyymmdd’)as nowtime from dual;结果: 20200908昨天日期sql: select to_char(sysdate-1,‘yyyymmdd’)as nowtime from dual;结果:20200907去年今天sql: select to_char(add_months(sysdate,-12),‘yyyymmdd’)
2020-09-23 14:24:50
506
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人