- 博客(16)
- 收藏
- 关注
原创 干货:Hive优化与数据倾斜总结!
Hive优化与数据倾斜a.优化: 1.使用mapJoin功能,默认为打开状态 2.创建表的时候,采用分区表和分桶表,可以避免全表扫描,加快速度 3.采用行列过滤,join where 改为 先where再join 4.小文件方向: -- JVM重用,重用次数10~20次 -- conbineHiveInputformat合并小文件,可以减少mapTask数量 -- merge(输出时合并小文件) SET hive.merge.mapfiles = true; 默认tr
2020-12-10 15:03:16
283
原创 关于Flink中CEP编程循环模式的坑!
1.正常的单例模式Pattern<LoginEvent, LoginEvent> pattern = Pattern.<LoginEvent>begin("start").where(new SimpleCondition<LoginEvent>() { @Override public boolean filter(LoginEvent value) throws Exception {
2020-11-28 10:33:31
712
原创 在采用Flink读取文本文件时,如何利用redis数据库去重??
例如文本文件如下:hello sparkhello sparkhello flinkhello spark使得每个单词输出一次;代码实现如下://读取文本数据,将每一行数据拆分成单个单词,对单词进行去重输出public class FlinkTest02 { public static void main(String[] args) throws Exception { //获取flink环境 StreamExecutionEnvironment e
2020-11-19 16:10:53
402
原创 关于Kylin安装时的兼容性问题如何解决!
修改/opt/module/kylin/bin/find-spark-dependency.sh,排除冲突的jar包需要增加的内容:! -name ‘jackson’ ! -name ‘metastore’注意前后保留空格
2020-10-24 08:50:47
466
原创 Hive之优化小细节,加快你日常使用!
1.启动hive时采用 nohup hiveserver2 > 文件名 2>&1 & ,此种启动方式不会占用太多的shell窗口,直接将结果传入指定的文件中;例如:nohup hiveserver2 > log1.txt 2>&1 $2.处理小数据集时,可以采用本地模式,提高效率:set hive.exec.mode.local.auto=true3.新版本的hive启动的时候,默认申请的jvm堆内存大小为256M,jvm堆内存申请的太
2020-10-22 16:37:17
371
原创 Shell中单引号和双引号以及反引号的区别,让你一次搞明白,不再头疼!
1.先创建一个test.sh文件[@hadoop102 bin]$ vim test.sh2.在文件中添加如下内容#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`3.查看执行结果[@hadoop102 bin]$ test.sh 2020-10-15$do_date2020-10-15'2020-10-15'"$do_date"2
2020-10-15 15:26:21
167
原创 hive几种系统函数如何使用?
1.concat():此函数可以将表中的若干字段(必须是字符串类型)根据自己的需求进行连接,返回的结果也是字符串类型,如:concat(a,"&",b)得到 "a&b" ;2.collect_set():从函数通常配和group by 来使用,按照你的分组字段,讲分组的所有结果进行连接,返回结果为字符串类型的数组,此函数只接受基本数据类型,汇总结果有去重;3.COLLECT_LIST():函数只接受基本数据类型,它的主要作用是将某字段的值进行不去重汇总,产生array类型字段..
2020-10-15 15:02:39
197
原创 大数据生态圈各个框架常用脚本大全,学习办公通用,妈妈再也不用担心老板让我写脚本了,收藏走起!!!
玩大数据的小伙伴应该知道,大数据生态圈框架越来越多,开机关机相当费劲,今天楼主给大家整理了常用的一些脚本,办公学习都可用,赶紧来看看吧!!1.检查集群当前进程脚本:#!/bin/bashfor host in hadoop102 hadoop103 hadoop104do echo =============== $host =============== ssh $host jps $@ | grep -v Jpsdone#就是如此简单2.Hadoop集群群
2020-09-03 17:30:22
1060
原创 Hadoop集群四大核心配置文件最全的功能配置,纯干货,一定要收藏!!!
这里给大家安排一下Hadoop集群四大配置文件,如何做到优化最高,一起来看看楼主的总结:1.core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><!-- 指定NameNode的地址 --> <property> <
2020-09-03 17:07:32
2122
1
原创 CentOS最小化安装之后命令无法使用怎么办?
CentOS最小化安装跟图形化安装有些不同,最小化安装可以节省电脑的存储性能,但是安装完之后基本命令都不可以使用,比如vim,ifconfig等都不可以使用,这里需要安装必要的组件才可以正常使用命令:sudo yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop注意:使用yum安装组件之前需要先保证网络连接设置正常!DEVICE=ens33TYPE=E
2020-09-01 21:31:25
815
原创 hive查询之企业级调优,让你的查询更快更强!!
1Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。<..
2020-08-24 15:12:22
178
原创 hive DDL常见建表语法!
在这里插入代码片```CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name --指定表名 【external 外部表/内部表】[(col_name data_type [COMMENT col_comment], ...)] --指定表的列名,列类型 【列描述】[COMMENT table_comment] --指定表的描述[PARTITIO
2020-08-18 20:02:20
305
原创 zookeeper选举机制详解!!!
(1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。(至少三台)(2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。(3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。
2020-08-17 21:30:05
980
原创 干货:企业Hadoop小文件解决方案!!!
1 Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理的数据量小,导致MapTask的处理时间比启动时间还小,白白消耗资源。2 Hadoop小文件解决方案小文件优化的方向:(1)在数
2020-08-14 21:11:25
177
原创 maven打包插件的pom文件!!
<!--用maven打jar包,需要添加的打包插件依赖--> <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.6.1</version> <c.
2020-08-13 11:24:00
838
原创 (谷歌面试题)给定一个字符串,算出每个字符出现的次数?
public static void main(String[] args) {//采用Map集合,键与值对应的思路; String s = "aanbshsbueismyhimaysoenshts123548seuwnsk 5";//随便指定一个字符串 Map<Character,Integer> map = new HashMap<>(); for (int i = 0; i < s.length(); i++) { char c .
2020-07-22 19:56:18
231
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人