大数据合集
开始掉头发了
活到老学到老
展开
-
干货:Hive优化与数据倾斜总结!
Hive优化与数据倾斜a.优化: 1.使用mapJoin功能,默认为打开状态 2.创建表的时候,采用分区表和分桶表,可以避免全表扫描,加快速度 3.采用行列过滤,join where 改为 先where再join 4.小文件方向: -- JVM重用,重用次数10~20次 -- conbineHiveInputformat合并小文件,可以减少mapTask数量 -- merge(输出时合并小文件) SET hive.merge.mapfiles = true; 默认tr原创 2020-12-10 15:03:16 · 224 阅读 · 0 评论 -
关于Flink中CEP编程循环模式的坑!
1.正常的单例模式Pattern<LoginEvent, LoginEvent> pattern = Pattern.<LoginEvent>begin("start").where(new SimpleCondition<LoginEvent>() { @Override public boolean filter(LoginEvent value) throws Exception {原创 2020-11-28 10:33:31 · 636 阅读 · 0 评论 -
在采用Flink读取文本文件时,如何利用redis数据库去重??
例如文本文件如下:hello sparkhello sparkhello flinkhello spark使得每个单词输出一次;代码实现如下://读取文本数据,将每一行数据拆分成单个单词,对单词进行去重输出public class FlinkTest02 { public static void main(String[] args) throws Exception { //获取flink环境 StreamExecutionEnvironment e原创 2020-11-19 16:10:53 · 344 阅读 · 0 评论 -
关于Kylin安装时的兼容性问题如何解决!
修改/opt/module/kylin/bin/find-spark-dependency.sh,排除冲突的jar包需要增加的内容:! -name ‘jackson’ ! -name ‘metastore’注意前后保留空格原创 2020-10-24 08:50:47 · 377 阅读 · 0 评论 -
Hive之优化小细节,加快你日常使用!
1.启动hive时采用 nohup hiveserver2 > 文件名 2>&1 & ,此种启动方式不会占用太多的shell窗口,直接将结果传入指定的文件中;例如:nohup hiveserver2 > log1.txt 2>&1 $2.处理小数据集时,可以采用本地模式,提高效率:set hive.exec.mode.local.auto=true3.新版本的hive启动的时候,默认申请的jvm堆内存大小为256M,jvm堆内存申请的太原创 2020-10-22 16:37:17 · 280 阅读 · 0 评论 -
Shell中单引号和双引号以及反引号的区别,让你一次搞明白,不再头疼!
1.先创建一个test.sh文件[@hadoop102 bin]$ vim test.sh2.在文件中添加如下内容#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`3.查看执行结果[@hadoop102 bin]$ test.sh 2020-10-15$do_date2020-10-15'2020-10-15'"$do_date"2原创 2020-10-15 15:26:21 · 138 阅读 · 0 评论 -
hive几种系统函数如何使用?
1.concat():此函数可以将表中的若干字段(必须是字符串类型)根据自己的需求进行连接,返回的结果也是字符串类型,如:concat(a,"&",b)得到 "a&b" ;2.collect_set():从函数通常配和group by 来使用,按照你的分组字段,讲分组的所有结果进行连接,返回结果为字符串类型的数组,此函数只接受基本数据类型,汇总结果有去重;3.COLLECT_LIST():函数只接受基本数据类型,它的主要作用是将某字段的值进行不去重汇总,产生array类型字段..原创 2020-10-15 15:02:39 · 156 阅读 · 0 评论 -
大数据生态圈各个框架常用脚本大全,学习办公通用,妈妈再也不用担心老板让我写脚本了,收藏走起!!!
玩大数据的小伙伴应该知道,大数据生态圈框架越来越多,开机关机相当费劲,今天楼主给大家整理了常用的一些脚本,办公学习都可用,赶紧来看看吧!!1.检查集群当前进程脚本:#!/bin/bashfor host in hadoop102 hadoop103 hadoop104do echo =============== $host =============== ssh $host jps $@ | grep -v Jpsdone#就是如此简单2.Hadoop集群群原创 2020-09-03 17:30:22 · 940 阅读 · 0 评论 -
Hadoop集群四大核心配置文件最全的功能配置,纯干货,一定要收藏!!!
这里给大家安排一下Hadoop集群四大配置文件,如何做到优化最高,一起来看看楼主的总结:1.core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><!-- 指定NameNode的地址 --> <property> <原创 2020-09-03 17:07:32 · 1958 阅读 · 1 评论 -
CentOS最小化安装之后命令无法使用怎么办?
CentOS最小化安装跟图形化安装有些不同,最小化安装可以节省电脑的存储性能,但是安装完之后基本命令都不可以使用,比如vim,ifconfig等都不可以使用,这里需要安装必要的组件才可以正常使用命令:sudo yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop注意:使用yum安装组件之前需要先保证网络连接设置正常!DEVICE=ens33TYPE=E原创 2020-09-01 21:31:25 · 693 阅读 · 0 评论 -
hive查询之企业级调优,让你的查询更快更强!!
1Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。<..原创 2020-08-24 15:12:22 · 140 阅读 · 0 评论 -
hive DDL常见建表语法!
在这里插入代码片```CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name --指定表名 【external 外部表/内部表】[(col_name data_type [COMMENT col_comment], ...)] --指定表的列名,列类型 【列描述】[COMMENT table_comment] --指定表的描述[PARTITIO原创 2020-08-18 20:02:20 · 258 阅读 · 0 评论 -
zookeeper选举机制详解!!!
(1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。(至少三台)(2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。(3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。原创 2020-08-17 21:30:05 · 901 阅读 · 0 评论