2020年12月_海绵不老

原创 flume安装

flume安装安装及配置环境变量使用安装及配置环境变量 1.保证有JAVA_HOME; 2.直接解压即可；将 apache-flume-1.7.0-bin.tar.gz包放到/opt/soft下,加压到/opt/module下 [atguigu@hadoop1 flume-1.7]$ ls bin CHANGELOG conf DEVNOTES doap_Flume.rdf docs lib LICENSE NOTICE README.md RELEASE-NOTES tools

2020-12-27 22:14:02 712

原创 java项目资源路径总结

File file = new File("\home\font\simhei.ttf");BufferedInputStream bis = new BufferedInputStream(new FileInputStream(file)); 2. //D:\JAVA\WmsPdaApi_SUITE\src\main\webapp\String realPath = request.getSession().getServletContext().getRealPath(""); 3. //f...

2020-12-27 11:19:50 192

原创 hive大表join空key优化

hive大表join空key优化如果A表中有大量c字段为null的数据。如果不对null值处理，此时，会产生数据倾斜！情形一情形二如果A表中有大量c字段为null的数据。如果不对null值处理，此时，会产生数据倾斜！情形一假如不需要id为null的数据！此时可以将A表中id为null的字段提前过滤，减少MR在执行时，输入的数据量！解决：将null值过滤，过滤后再执行Join! (select * from A where c is not null)A left join B

2020-12-27 11:16:41 747

原创 hive常用函数

hive常用函数系统内置函数自定义函数cc 系统内置函数 1．查看系统自带的函数 hive> show functions; 2．显示自带的函数的用法 hive> desc function upper; 3．详细显示自带的函数的用法 hive> desc function extended upper; 自定义函数 c c ...

2020-12-22 23:27:55 257

原创 hive beeline使用

1.hadoop集群启用 start-all.sh 2.启用hive 3.开启hiveserver2 4.beeline进入命令行：输入： !connect jdbc:hive2://hadoop1:10000/default 紧接着输入用户名、密码 [atguigu@hadoop1 root]$ beeline Beeline version 1.2.1 by Apache Hive beeline> !connect jdbc:hive2://hadoop1:10000/default

2020-12-20 20:37:09 343

原创 hive几种导入数据方式

load 语法： load data [local] inpath ‘xx’ into table 表名 partition() local: 如果导入的文件在本地文件系统，需要加上local，使用put将本地上传到hdfs 不加local默认导入的文件是在hdfs，使用mv将源文件移动到目标目录 hadoop fs -put department / load data inpath ‘/department’ into table deptpart3 partition(area=‘suzh

2020-12-13 21:28:00 1914

原创 hive几种建表方式

普通建表如创建一个分区表： create external table if not exists default.deptpart1( deptno int, dname string, loc int ) PARTITIONED BY(area string) row format delimited fields terminated by ‘\t’; like语法 create table person2 like person; 创建的表只是复制表结构没有数据；如果是分区表，创建的依然是分

2020-12-12 22:37:15 1232

原创 hive分桶

hive分桶创建分桶表导入数据三级目录创建分桶表建表时指定了CLUSTERED BY，这个表称为分桶表！分桶：和MR中分区是一个概念！把数据分散到多个文件中！ create table stu_buck(id int, name string) clustered by(id) SORTED BY (id desc) into 4 buckets row format delimited fields terminated by '\t'; 导入数据创建临

2020-12-11 23:06:11 238

原创 hadoop ConnectException异常

最近hive执行导入数据时，mapreduce执行异常，异常信息如下异常日志：通过分析可知9000端口连接异常，由于我之前一直都是运行正常，不可能是配置原因导致的，忽然想到是不是9000端口被占用，于是开始查询端口使用情况； netstat -tunlp | grep 9000 kill -9 5857 后重启hadoop集群，结果执行正常了。。。。 ...

2020-12-11 22:07:31 380

原创 hive分区

hive分区创建分区表导数据多级分区表数据修复创建分区表 1.创建分区表 create external table if not exists default.deptpart1( deptno int, dname string, loc int ) PARTITIONED BY(area string) row format delimited fields terminated by '\t'; 2.创建分区 ① alter table 表名 add partit

2020-12-08 22:43:25 237

原创 spring嵌套事务探究

1.serviceA 调用 serviceB（另起事务） serviceA在 serviceB正常执行后抛异常，serviceB 事务不回滚，serviceA事务回滚 2.serviceA 调用 serviceB（另起事务），serviceB方法里抛出异常，但在serviceA 里trycatch serviceB，serviceB事务回滚，serviceA事务不回滚 3.serviceA 调用 serviceB serviceA在 serviceB正常执行后抛异常，但被trycatch，ser

2020-12-05 19:54:48 250

原创 hive安装部署及使用

hive安装部署及使用hive安装部署hive简单使用hive数据的存储配置hive的元数据存储到MySQL中 hive安装部署前提：hive是java写的，因此需要配置java环境变量；另外保证你的hadoop集群正常起来 [atguigu@hadoop1 root]$ echo $HADOOP_HOME /opt/module/hadoop-2.7.2 [atguigu@hadoop1 root]$ echo $JAVA_HOME /usr/java/jdk1.8.0_131 1.把apac

2020-12-05 16:06:13 292

weixin_38610500的博客