开始掉头发了-CSDN博客

原创干货：Hive优化与数据倾斜总结！

Hive优化与数据倾斜a.优化： 1.使用mapJoin功能，默认为打开状态 2.创建表的时候，采用分区表和分桶表，可以避免全表扫描，加快速度 3.采用行列过滤，join where 改为先where再join 4.小文件方向： -- JVM重用，重用次数10~20次 -- conbineHiveInputformat合并小文件，可以减少mapTask数量 -- merge（输出时合并小文件） SET hive.merge.mapfiles = true; 默认tr

2020-12-10 15:03:16 283

原创关于Flink中CEP编程循环模式的坑！

1.正常的单例模式Pattern<LoginEvent, LoginEvent> pattern = Pattern.<LoginEvent>begin("start").where(new SimpleCondition<LoginEvent>() { @Override public boolean filter(LoginEvent value) throws Exception {

2020-11-28 10:33:31 712

原创在采用Flink读取文本文件时，如何利用redis数据库去重？？

例如文本文件如下：hello sparkhello sparkhello flinkhello spark使得每个单词输出一次；代码实现如下：//读取文本数据,将每一行数据拆分成单个单词,对单词进行去重输出public class FlinkTest02 { public static void main(String[] args) throws Exception { //获取flink环境 StreamExecutionEnvironment e

2020-11-19 16:10:53 402

原创关于Kylin安装时的兼容性问题如何解决！

修改/opt/module/kylin/bin/find-spark-dependency.sh，排除冲突的jar包需要增加的内容：! -name ‘jackson’ ! -name ‘metastore’注意前后保留空格

2020-10-24 08:50:47 466

原创 Hive之优化小细节，加快你日常使用！

1.启动hive时采用 nohup hiveserver2 > 文件名 2>&1 & ，此种启动方式不会占用太多的shell窗口，直接将结果传入指定的文件中；例如：nohup hiveserver2 > log1.txt 2>&1 $2.处理小数据集时，可以采用本地模式，提高效率：set hive.exec.mode.local.auto=true3.新版本的hive启动的时候，默认申请的jvm堆内存大小为256M，jvm堆内存申请的太

2020-10-22 16:37:17 371

原创 Shell中单引号和双引号以及反引号的区别，让你一次搞明白，不再头疼！

1.先创建一个test.sh文件[@hadoop102 bin]$ vim test.sh2.在文件中添加如下内容#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`3.查看执行结果[@hadoop102 bin]$ test.sh 2020-10-15$do_date2020-10-15'2020-10-15'"$do_date"2

2020-10-15 15:26:21 167

原创 hive几种系统函数如何使用？

1.concat（）：此函数可以将表中的若干字段（必须是字符串类型）根据自己的需求进行连接，返回的结果也是字符串类型，如：concat（a,"&",b）得到 "a&b" ；2.collect_set（）：从函数通常配和group by 来使用，按照你的分组字段，讲分组的所有结果进行连接，返回结果为字符串类型的数组，此函数只接受基本数据类型，汇总结果有去重；3.COLLECT_LIST()：函数只接受基本数据类型，它的主要作用是将某字段的值进行不去重汇总，产生array类型字段..

2020-10-15 15:02:39 197

原创大数据生态圈各个框架常用脚本大全，学习办公通用，妈妈再也不用担心老板让我写脚本了，收藏走起！！！

玩大数据的小伙伴应该知道，大数据生态圈框架越来越多，开机关机相当费劲，今天楼主给大家整理了常用的一些脚本，办公学习都可用，赶紧来看看吧！！1.检查集群当前进程脚本：#!/bin/bashfor host in hadoop102 hadoop103 hadoop104do echo =============== $host =============== ssh $host jps $@ | grep -v Jpsdone#就是如此简单2.Hadoop集群群

2020-09-03 17:30:22 1060

原创 Hadoop集群四大核心配置文件最全的功能配置，纯干货，一定要收藏！！！

这里给大家安排一下Hadoop集群四大配置文件，如何做到优化最高，一起来看看楼主的总结：1.core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <

2020-09-03 17:07:32 2122 1

原创 CentOS最小化安装之后命令无法使用怎么办？

CentOS最小化安装跟图形化安装有些不同，最小化安装可以节省电脑的存储性能，但是安装完之后基本命令都不可以使用，比如vim，ifconfig等都不可以使用，这里需要安装必要的组件才可以正常使用命令：sudo yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop注意：使用yum安装组件之前需要先保证网络连接设置正常！DEVICE=ens33TYPE=E

2020-09-01 21:31:25 815