开始掉头发了
码龄5年
关注
提问 私信
  • 博客:8,829
    8,829
    总访问量
  • 16
    原创
  • 776,222
    排名
  • 3
    粉丝
  • 0
    铁粉

个人简介:活到老学到老

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2020-07-05
博客简介:

miaolei1216的博客

查看详细资料
个人成就
  • 获得10次点赞
  • 内容获得1次评论
  • 获得24次收藏
创作历程
  • 16篇
    2020年
成就勋章
TA的专栏
  • 大数据合集
    13篇
  • 配置文件
    2篇
  • Java基础
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

干货:Hive优化与数据倾斜总结!

Hive优化与数据倾斜a.优化: 1.使用mapJoin功能,默认为打开状态 2.创建表的时候,采用分区表和分桶表,可以避免全表扫描,加快速度 3.采用行列过滤,join where 改为 先where再join 4.小文件方向: -- JVM重用,重用次数10~20次 -- conbineHiveInputformat合并小文件,可以减少mapTask数量 -- merge(输出时合并小文件) SET hive.merge.mapfiles = true; 默认tr
原创
发布博客 2020.12.10 ·
254 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

关于Flink中CEP编程循环模式的坑!

1.正常的单例模式Pattern<LoginEvent, LoginEvent> pattern = Pattern.<LoginEvent>begin("start").where(new SimpleCondition<LoginEvent>() { @Override public boolean filter(LoginEvent value) throws Exception {
原创
发布博客 2020.11.28 ·
677 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

在采用Flink读取文本文件时,如何利用redis数据库去重??

例如文本文件如下:hello sparkhello sparkhello flinkhello spark使得每个单词输出一次;代码实现如下://读取文本数据,将每一行数据拆分成单个单词,对单词进行去重输出public class FlinkTest02 { public static void main(String[] args) throws Exception { //获取flink环境 StreamExecutionEnvironment e
原创
发布博客 2020.11.19 ·
375 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

关于Kylin安装时的兼容性问题如何解决!

修改/opt/module/kylin/bin/find-spark-dependency.sh,排除冲突的jar包需要增加的内容:! -name ‘jackson’ ! -name ‘metastore’注意前后保留空格
原创
发布博客 2020.10.24 ·
433 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Hive之优化小细节,加快你日常使用!

1.启动hive时采用 nohup hiveserver2 > 文件名 2>&1 & ,此种启动方式不会占用太多的shell窗口,直接将结果传入指定的文件中;例如:nohup hiveserver2 > log1.txt 2>&1 $2.处理小数据集时,可以采用本地模式,提高效率:set hive.exec.mode.local.auto=true3.新版本的hive启动的时候,默认申请的jvm堆内存大小为256M,jvm堆内存申请的太
原创
发布博客 2020.10.22 ·
344 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Shell中单引号和双引号以及反引号的区别,让你一次搞明白,不再头疼!

1.先创建一个test.sh文件[@hadoop102 bin]$ vim test.sh2.在文件中添加如下内容#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`3.查看执行结果[@hadoop102 bin]$ test.sh 2020-10-15$do_date2020-10-15'2020-10-15'"$do_date"2
原创
发布博客 2020.10.15 ·
160 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hive几种系统函数如何使用?

1.concat():此函数可以将表中的若干字段(必须是字符串类型)根据自己的需求进行连接,返回的结果也是字符串类型,如:concat(a,"&",b)得到 "a&b" ;2.collect_set():从函数通常配和group by 来使用,按照你的分组字段,讲分组的所有结果进行连接,返回结果为字符串类型的数组,此函数只接受基本数据类型,汇总结果有去重;3.COLLECT_LIST():函数只接受基本数据类型,它的主要作用是将某字段的值进行不去重汇总,产生array类型字段..
原创
发布博客 2020.10.15 ·
179 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

大数据生态圈各个框架常用脚本大全,学习办公通用,妈妈再也不用担心老板让我写脚本了,收藏走起!!!

玩大数据的小伙伴应该知道,大数据生态圈框架越来越多,开机关机相当费劲,今天楼主给大家整理了常用的一些脚本,办公学习都可用,赶紧来看看吧!!1.检查集群当前进程脚本:#!/bin/bashfor host in hadoop102 hadoop103 hadoop104do echo =============== $host =============== ssh $host jps $@ | grep -v Jpsdone#就是如此简单2.Hadoop集群群
原创
发布博客 2020.09.03 ·
1015 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hadoop集群四大核心配置文件最全的功能配置,纯干货,一定要收藏!!!

这里给大家安排一下Hadoop集群四大配置文件,如何做到优化最高,一起来看看楼主的总结:1.core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><!-- 指定NameNode的地址 --> <property> <
原创
发布博客 2020.09.03 ·
2069 阅读 ·
1 点赞 ·
1 评论 ·
8 收藏

CentOS最小化安装之后命令无法使用怎么办?

CentOS最小化安装跟图形化安装有些不同,最小化安装可以节省电脑的存储性能,但是安装完之后基本命令都不可以使用,比如vim,ifconfig等都不可以使用,这里需要安装必要的组件才可以正常使用命令:sudo yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop注意:使用yum安装组件之前需要先保证网络连接设置正常!DEVICE=ens33TYPE=E
原创
发布博客 2020.09.01 ·
761 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

hive查询之企业级调优,让你的查询更快更强!!

1Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。<..
原创
发布博客 2020.08.24 ·
165 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive DDL常见建表语法!

在这里插入代码片```CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name --指定表名 【external 外部表/内部表】[(col_name data_type [COMMENT col_comment], ...)] --指定表的列名,列类型 【列描述】[COMMENT table_comment] --指定表的描述[PARTITIO
原创
发布博客 2020.08.18 ·
284 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

zookeeper选举机制详解!!!

(1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。(至少三台)(2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。(3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。
原创
发布博客 2020.08.17 ·
944 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

干货:企业Hadoop小文件解决方案!!!

1 Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理的数据量小,导致MapTask的处理时间比启动时间还小,白白消耗资源。2 Hadoop小文件解决方案小文件优化的方向:(1)在数
原创
发布博客 2020.08.14 ·
153 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

maven打包插件的pom文件!!

<!--用maven打jar包,需要添加的打包插件依赖--> <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.6.1</version> <c.
原创
发布博客 2020.08.13 ·
805 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

(谷歌面试题)给定一个字符串,算出每个字符出现的次数?

public static void main(String[] args) {//采用Map集合,键与值对应的思路; String s = "aanbshsbueismyhimaysoenshts123548seuwnsk 5";//随便指定一个字符串 Map<Character,Integer> map = new HashMap<>(); for (int i = 0; i < s.length(); i++) { char c .
原创
发布博客 2020.07.22 ·
212 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多