吃鱼的羊
码龄18年
关注
提问 私信
  • 博客:2,208,439
    社区:147
    2,208,586
    总访问量
  • 85
    原创
  • 310,195
    排名
  • 430
    粉丝
  • 2
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2007-04-05
博客简介:

hellojoy的博客

查看详细资料
个人成就
  • 获得1,034次点赞
  • 内容获得158次评论
  • 获得3,802次收藏
  • 代码片获得379次分享
创作历程
  • 3篇
    2022年
  • 95篇
    2021年
  • 98篇
    2020年
  • 92篇
    2019年
  • 188篇
    2018年
  • 50篇
    2017年
  • 30篇
    2016年
  • 61篇
    2015年
成就勋章
TA的专栏
  • 数据挖掘
    1篇
  • Flink
    34篇
  • 数仓理论
    65篇
  • sqoop
    7篇
  • maven
    4篇
  • Elasticsearch
    5篇
  • CSS
    3篇
  • JS
    17篇
  • VueJs
    16篇
  • Redis
    3篇
  • INFORMATICA
    28篇
  • BIEE11g
    19篇
  • ORACLE
    30篇
  • OS
    36篇
  • EXCEL
  • 技术概念
    20篇
  • JAVA
    109篇
  • Hadoop
    74篇
  • BIEE12C
    19篇
  • HIVE
    84篇
  • SPARK
    59篇
  • HBASE
    7篇
  • Linux Shell
    42篇
  • python
    15篇
  • spring
    21篇
  • Kafka
    20篇
  • Scala
    53篇
  • 架构
    16篇
  • 算法
    7篇
  • mysql
    2篇
  • FineBI
    1篇
  • GP
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

实操 | Hive 数据倾斜问题定位排查及解决

实操 | Hive 数据倾斜问题定位排查及解决多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,大概率是出现了数据倾斜,但是通常我们的 SQL 很大,需要判断出是哪段代码导致的倾斜,才能利于我们解决倾斜。通过下面这个非常简单的例子来看下如何定位产生数据
转载
发布博客 2022.05.13 ·
3237 阅读 ·
8 点赞 ·
1 评论 ·
42 收藏

YARN UI界面日志详解二——某个任务详细日志

https://blog.csdn.net/NC_NE/article/details/118281875一、任务日志在哪前面我们已经了解了ResourceManager UI界面参考上一篇文章YARN UI界面日志详解一,我们也看到了下图:就在Applications下的几个状态中,只要你是提交到yarn来管理的任务那一定在这几个状态中的某一个,所以弄清楚这几个状态的日志信息那我们就能知道某个任务的运行状况了。在实际工作中NEW、NEW_SAVING、SUBMITTED这三个用到的概率还
转载
发布博客 2022.05.13 ·
1490 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

数据挖掘案例(1):泰坦尼克号-数据挖掘流程

数据挖掘案例(1):泰坦尼克号-数据挖掘流程_ZhuNian的学习乐园-CSDN博客内容分为四个部分:    第一部分:数据读取与展示    第二部分:特征理解分析    第三部分:数据清洗与预处理    第四部分:建立模型数据和源码 移步到Github : https://github.com/Stormzudi/Data-Mining-Case邮箱:442395572@qq.com目录前言:1. 泰坦尼克号-数据挖掘案例解读2. 数据挖掘流程3. 挑选兵器第一部..
转载
发布博客 2022.01.23 ·
7141 阅读 ·
5 点赞 ·
0 评论 ·
70 收藏

flink实战--双流join之原理解析

flink实战--双流join之原理解析JOIN简介谈flink双流JOIN之前,我们先谈一下大家最熟悉的mysql表join,我们知道表join有如下几种,具体区别就不在介绍了。那么流的join和表的join有什么区别呢?本文我们介绍一下。CROSS JOIN - 交叉连接,计算笛卡儿积;INNER JOIN - 内连接,返回满足条件的记录;OUTER JOINLEFT - 返回左表所有行,右表不存在补NULL;RIGHT - 返回右表所有行,左边不存在补NULL;FULL -
转载
发布博客 2021.10.27 ·
2478 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

mapreduce二次排序详解

mapreduce二次排序详解 - linzch3 - 博客园什么是二次排序待排序的数据具有多个字段,首先对第一个字段排序,再对第一字段相同的行按照第二字段排序,第二次排序不破坏第一次排序的结果,这个过程就称为二次排序。如何在mapreduce中实现二次排序mapreduce的工作原理MR的工作原理如下图(如果看不清可右键新标签页查看):图片部分数据参考自:Hadoop — MapReduce原理解析相关重点:分区(partitioning):使得具有相同Key值的键值.
转载
发布博客 2021.10.22 ·
2485 阅读 ·
2 点赞 ·
0 评论 ·
18 收藏

如何建立以指标体系为目标的数仓

如何建立以指标体系为目标的数仓?数仓全景图00建设过程数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这 些步骤比较抽象。为了便于落地,根据经验,总结出上面的七个步骤:1、梳理业务流程2、领域垂直切分3、指标体系梳理4、实体关系调研5、维度梳理6、数仓分层7、物理模型建立。每个步骤不说理论,直接放工具、模板和案例。01业务流程1找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。2梳理每
转载
发布博客 2021.10.21 ·
492 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

hive字段关联类型不一致时,两边都会转换成double类型

--hive字段关联类型不一致时,两边都会转换成double类型explainselect a.*,b.*from (select cast(186994576061124660 as bigint) col ) aleft join (select '186994576061124672' as col ) b on a.col=b.col ;186994576061124660 186994576061124672Reduce Operator Tree:Jo..
原创
发布博客 2021.08.13 ·
1945 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive SQL grouping sets 用法

https://www.cnblogs.com/Allen-rg/p/10648231.html概述GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。GROUPING SETS和GROUPING__ID说明在一个GROUP BY查询中,根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果集进行UNION ALLGROU
转载
发布博客 2021.08.09 ·
1012 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

hadoop生态之---sqoop导入数据导致精度丢失

用sqoop --query选项在查询的时候将decimal字段concat(field_name)为str类型目前在查询国内论坛没有找到相关的解决办法https://blog.csdn.net/mzqadl/article/details/104526202精度丢失问题异常信息WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive1描述:使...
转载
发布博客 2021.06.22 ·
550 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

decimal,float和double的区别是什么?

https://zhuanlan.zhihu.com/p/352503879今天复习mysql理论知识,在看常用数据类型的时候发现float和decimal类型都是表示小数,就展开搜索学习了一下区别,分享给大家:表示小数的一共有三种类型:float是单精度,double是双精度,decimal是数字型,它们所占的内存空间不一样,表示的位数也不一样。1、精度:float单精度小数部分能精确到小数点后面6位,用 32 位二进制进行描述 double双精度小数部分能精确到小数点后的15.
转载
发布博客 2021.06.22 ·
8971 阅读 ·
4 点赞 ·
0 评论 ·
13 收藏

Sqoop exoprt 实战避坑(parquet格式 ,columns 参数详解)

https://blog.csdn.net/qq_35995514/article/details/108542495目录一、Parquet+Snappy 压缩格式的数据export1.创建表 dwd_report_site_hour2.解决方式二、Sqoop exportcolumns 参数说明1.Hive字段顺序和MySQL保持一致2. Sqoop export columns 中的字段顺序调整3.测试 Sqoop exportcolumns 中 减少一个字段...
转载
发布博客 2021.06.22 ·
691 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop import as-parquetfile时兼容decimal数据类型解决方案(抽取MySQL数据到Hive中,decimal问题)

转载自:https://blog.csdn.net/Sheepflysun/article/details/108247256一、sqoop import 问题总结Sqoop import as-parquetfile时兼容decimal数据类型问题1.建表不压缩,默认存储格式 Textfile>>>>>sqoop 导入不压缩,不指定存储格式1.1 MySQL:decimal————>Hive:decimal, sql 查询该字段,默认为Null值; 在hdfs
转载
发布博客 2021.06.22 ·
1046 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

使用Sqoop导入导出parquet格式的Hive表

1、导入sqoop import \--connect jdbc:mysql://10.10.0.1:3306/test \--username root \--password 123456 \--table session_detail \--hive-import \--hive-overwrite \--hive-databbase xiet \--fields-terminated-by '\001' \--target-dir /user/hive/temp_sqo...
转载
发布博客 2021.06.22 ·
711 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Sqoop 支持 ORC 文件格式

ORC 介绍ORC 文件格式是 Hive 0.11.0 版本引入的一种文件格式。ORC 的引入是为了解决其他 Hive 文件格式的局限性。使用 ORC 文件格式提升 Hive 读取、写入及处理数据的性能。与 RCFile 对比,ORC 文件格式有很多优点:每个 Task 只输出一个文件,降低 NameNode 的负载。 Hive 数据类型支持,包括:datetime、decimal 以及复杂数据类型(struct、list、map、union)。 文件中存储轻量级的索引: 跳过不通过谓
转载
发布博客 2021.06.22 ·
2226 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

sqoop的原生抽取方式与HCatalog抽取的区别

https://blog.csdn.net/m0_49834705/article/details/1111985021. Sqoop抽取的两种方式对于Mysql数据的采集,通常使用Sqoop来进行。通过Sqoop将关系型数据库数据到Hive有两种方式,一种是原生Sqoop API,一种是使用HCatalog API。两种方式略有不同。HCatalog方式与Sqoop方式的参数基本都是相同,只是个别不一样,都是可以实现Sqoop将数据抽取到Hive。Sqoop可以实现Hadoop集群与关...
转载
发布博客 2021.06.22 ·
1085 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

微信开发中 openID 与 unionID 的区别

今天想介绍关于OpenID和UnionID这两个ID的理解方式。官网解释OpenID用户唯一标识,请注意,在未关注公众号时,用户访问公众号的网页,也会产生一个用户和公众号唯一的OpenIDUnionID通过获取用户基本信息接口,开发者可通过OpenID来获取用户基本信息,而如果开发者拥有多个公众号,可使用以下办法通过UnionID机制来在多公众号之间进行用户帐号互通。只要是同一个微信开放平台帐号下的公众号,用户的UnionID是唯一的。换句话说,同一用户,对同一个微信开放平台帐号下的.
转载
发布博客 2021.06.03 ·
2922 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive中的mapjoin

在Hive中,common join是很慢的,如果我们是一张大表关联多张小表,可以使用mapjoin加快速度。mapjoin主要有以下参数:hive.auto.convert.join : 是否自动转换为mapjoinhive.mapjoin.smalltable.filesize : 小表的最大文件大小,默认为25000000,即25Mhive.auto.convert.join.noconditionaltask : 是否将多个mapjoin合并为一个hive.auto.convert.jo
转载
发布博客 2021.05.29 ·
1502 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

hive中join导致的数据倾斜问题排查, 分析热点值

https://blog.csdn.net/wisgood/article/details/77063606
转载
发布博客 2021.05.29 ·
1566 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Hive中rlike,like,not like,regexp区别与使用详解

https://blog.csdn.net/qq_26442553/article/details/794522211.like的使用详解1.语法规则:格式是A like B,其中A是字符串,B是表达式,表示能否用B去完全匹配A的内容,换句话说能否用B这个表达式去表示A的全部内容,注意这个和rlike是有区别的。返回的结果是True/False.B只能使用简单匹配符号_和%,”_”表示任意单个字符,字符”%”表示任意数量的字符like的匹配是按字符逐一匹配的,使用B从A的第一个字符开始匹配,.
转载
发布博客 2021.05.27 ·
1846 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

hivesql中使用join 关联表时where 和 on、join 的执行先后顺序 explain

https://blog.csdn.net/weixin_42903419/article/details/105845410在hive sql 中,总会遇到表关联的同时还需要对左右表进行过滤数据,但是where ,on,join之间的先后顺序是怎么的呢?下面我们来一一探讨一下。环境:hive 0.13.1版本首先我们看一下t1表全表扫描的num rows 是多少:select t1.cust_pty_no,t2.amtfrom a t1left join b t2on t1.c.
转载
发布博客 2021.05.27 ·
3470 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏
加载更多