自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

石榴姐yyds

数据开发与数据挖掘

  • 博客(8)
  • 资源 (43)
  • 收藏
  • 关注

原创 Hive存储优化策略

1 避免小文件生成Hive的存储本质还是HDFS,HDFS是不利于小文件存储的,因为每个小文件会产生一条元数据信息,并且不利用MapReduce的处理,MapReduce中每个小文件会启动一个MapTask计算处理,导致资源的浪费,所以在使用Hive进行处理分析时,要尽量避免小文件的生成。那么在使用Hive时,如何能避免小文件的生成呢?当我们使用多个Reduce进行聚合计算时,我们并不清楚每个Reduce最终会生成的结果的数据大小,无法控制用几个Reduce来处理。Hive中为我们提供了一个特殊的机

2021-05-30 20:31:21 475 6

原创 HQL之常用的行列转换应用总结

行列转换是数据开发者的基本技能,也是面试重点,在数据开发中处处可见,本文对常见的几种情况进行了总结,包括了多行转多列,多行转单列,多列转多行,单列转多行的几种情况,并给出了解决思路和方法,读者可根据本文给出的思路灵活应对业务中遇到的问题。

2021-05-30 14:59:36 1297 1

原创 Hive多字节分隔符解决方案

1 应用场景1.1 Hive中的分隔符Hive中默认使用单字节分隔符来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为\001。根据不同文件的不同分隔符,我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节分隔符’ 来指定文件中的分割符,确保正确将表中的每一列与文件中的每一列实现一一对应的关系。1.2 特殊数据在实际工作中,我们遇到的数据往往不是非常规范化的数据,例如我们会遇到以下的两种情况情况一:每一.

2021-05-29 18:09:57 4840 3

原创 HBase数据块NotServingRegionException问题排查与解决

0 问题ERROR: org.apache.hadoop.hbase.NotServingRegionException: Region phm_default_lightunit,,1606205408615.397792fb6a31a2a183c3031d173c61d2. is not online on bd--4.jx.com,16020,1620637191420 at org.apache.hadoop.hbase.regionserver.HRegionServer.getRegio

2021-05-11 14:08:41 8480

原创 System times on machines may be out of sync. Check system time and time zones问题解决

错误如下:Diagnostic Messages for this Task:Container launch failed for container_e07_1614842970834_0146_02_000005 : org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.This token is expired. current time is 16206288052

2021-05-10 15:01:18 1008

原创 窗口函数之ntile()函数讲解

ntileNTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值。将一个有序的数据集划分为多个桶(bucket),并为每行分配一个适当的桶数(切片值,第几个切片,第几个分区等概念)。它可用于将数据划分为相等的小切片,为每一行分配该小切片的数字序号。NTILE不支持ROWS BETWEEN,比如NTILE(2) OVER(PARTITION BY dept_no ORDER BY salary ROWS BETWEEN 3 PRECEDING - AND CURRENT ROW)。如.

2021-05-09 21:40:59 20351

原创 窗口函数之cume_dist 函数讲解

cume_dist 如果按升序排列,则统计:小于等于当前值的行数/总行数(number of rows ≤ current row)/(total number of rows)。如果是降序排列,则统计:大于等于当前值的行数/总行数。示例:1. 统计小于等于当前工资的人数占总人数的比例。SELECT name, dept_no, salary, cume_dist() OVER (ORDER BY salary) as cume_distF.

2021-05-09 21:32:25 6812 1

原创 数据仓库模型设计及实施方法

1 数仓的分层(1)如何分层?ODS层:原始数据层,存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理DWD层:数据明细层:结构和粒度保持原始表一致。主要作用是对ODS层数据进行清洗(去除空值NULL,脏数据,超过极限范围的数据如9999),当然也包括对原始解析处理,如串值的展开,json的解析等DWS层:数据汇总层或数据服务层:依赖于DWD层数据,按天粒度进行汇总DWT层:数据主题层:以DWS层为基础,按主题进行汇总。ADS层:为各种展示及统计报表提供数据。(2)为什么

2021-05-09 21:15:39 1621

身份6位速查表.zip

前6位于对应省份地区地址的关系速查表,做数据的同学可以借用一下。

2020-04-29

Drools规则引擎介绍.ppt

drools规则引擎,了解规则匹配,专家系统的可以学习一下,java的同学也可以学习一下,各大厂也在用哦

2020-04-29

大数据架构题目.pdf

大数据架构面试题包含了数据治理、数据仓库、数据架构、数据分析题目,是面试不可多得的资料,需要的赶快入手。

2020-04-08

hive建表操作案例.txt

hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。

2019-12-25

启动zk的脚本.sh

集群启动zk的脚本,只需要改集群参数就可以了集群启动zk的脚本,只需要改集群参数就可以了集群启动zk的脚本,只需要改集群参数就可以了

2019-12-25

FingerLocFun.m

matlab室内定位算法程序,可运行,稍微改改参数就可以了。matlab室内定位算法程序,可运行,稍微改改参数就可以了。

2019-12-25

尚硅谷大数据之Oozie.pdf

dashuju 大数据oozie尚硅谷主讲,内容总结详细

2019-08-21

尚硅谷python-人工智能课程(1).pptx

尚硅谷python,人工智能课件精讲,内容丰富,学到很多

2019-08-21

数据仓库架构师笔试题.docx

数据仓库架构师面试题,里面包含了各家的面试题,难度比较大,欢迎下载

2019-08-13

Azkaban实战通过5个不同场景介绍原理.docx

Azkaban实战通过5个不同场景介绍原理,实战级别,非常好用的资源。

2019-05-22

企业IT架构转型之道 阿里巴巴中台战略思想与架构实战【高清+完整目录】(1).pdf

企业IT架构转型之道 阿里巴巴中台战略思想与架构实战【高清+完整目录】很多人想要的资料哦

2019-05-22

scala从入门到进阶

1、本文档主要讲述了scala从基础到进阶的内容。2、内容全面,例程到位,适合初学者学习。

2018-07-19

java9新特性视频讲解(源码+视频+工具+资料)

java9新特性视频讲解(源码+视频+工具+资料),尚硅谷。

2018-06-27

人工智能(深度学习)相关视频及资料

1、本下载地址包括了:人工智能的相关学习资料,如python机器学习、机器学习实战,金融大数据分析、深度学习等相关资料。2、视频内容包含了,人工智能数学类基础学习、深度神经网络算法之Python基础与数据分析、深度神经网络算法之算法与编程及深度学习。3、该资料是学习人工智能极好的资料,网上有卖的,我分享出来与大家共享,觉得好久点个赞吧,哈哈。

2018-06-26

STM32开发工具及相关资料包

各种常用的模块及工具,代码。如:ST-Link V2仿真器驱动、03.JLink仿真器驱动、11.USB转串口HL-340,FT232R驱动、14.字库提取软件、13.图片图标处理软件、16.TCP UDP协议测试工具等等,太多了我不想写了。。。。

2018-06-26

kafka细心原理与实战

1、对kafka基本概念及原理性进行探讨。2、对kafka配置文件进行总结和分析 3、详细介绍了kafkaAPI编程。4、kafka的存储原理进行分析。适合kafka入门级资料

2018-06-25

三套大数据实战项目集合(视频讲解+源代码+相关文档+相关软件资料)

1、大数据平台基础概述。2、驴妈妈大数据平台项目。3、某团购网大型电商离线数据分析平台。4、视频讲解+源代码+相关文档+相关软件资料

2018-06-22

hbase优化总结

本文档主要对hbase的优化进行了总结,对项目中使用hbase的调优具有一定的指导意义

2018-06-20

hive参数优化总结

本文档主要总结了hive的参数优化,对hive的理解具有一定的作用

2018-06-20

剩余漏电保护器通讯规约指令解析(简化版)

本文档是对剩余漏电保护器通信规约指令进行解析,方便程序员进行编程使用,该版本为国网通信规约简化版,方便代码的编写。

2018-02-06

greenplum的驱动

gP驱动包,可以应用在datagrip等,哈哈哈哈,非常好用

2023-05-19

Hive调优全方位指南.pdf

Hive调优全方位指南,总结了25条关于Hive调优的经验,对于大数据及hive工程师是不可多得的资源。

2020-12-28

硕士英语综合教程2_课后答案.doc

硕士英语综合教程2_课后答案.doc

2020-10-23

KafkaAdminClient:Kafka的运维利器.docx

KafkaAdminClient:Kafka的运维利器.docx

2020-10-23

第四章 矩阵的分解.ppt

第四章 矩阵的分解.ppt

2020-10-23

Git讲义 .pdf

Git讲义,深度讲解git的用法,里面列举了多个案例,是学习git不可或缺的资源。

2020-10-23

分析函数.xmind

分析函数.xmind

2020-10-23

left join 闭坑指南.pdf

left join 闭坑指南.pdf

2020-10-23

数仓深度数据模型设计.pdf

数仓深度数据模型设计.pdf

2020-10-14

Hive调优,数据工程师成神之路.pdf

Hive调优,数据工程师成神之路。

2020-10-14

hbase备份脚本,hbase备份脚本

hbase备份脚本

2020-10-14

hadoop-辅助工具-笔记.docx

hadoop-辅助工具-笔记

2020-05-13

矩阵论课件及考试题.rar

矩阵论课件及考试题.rar

2020-05-11

矩阵理论试题及其解答.doc

矩阵理论试题及其解答.doc

2020-05-11

最优控制(考试题)2015.doc

最优控制(考试题)2015.doc

2020-05-11

博士研究高等数值分析试题.doc

博士研究高等数值分析试题.doc

2020-05-11

大厂算法面试题库中高频出现的30道典型题.pdf

大厂算法面试题,高频出现的30题,面试绝对有用。如果你刷leetcode题目很多,为了面试不如看看高频题,这30到够用了,经常会被笔试到,资料很好。

2020-04-29

基于语义搜索+知识问答系统设计.pdf

基于ES的知识问答系统设计,文中给出了具体demo,是不可多得学习资料,文中系统的讲解设计方法及原理。

2020-04-29

知识图谱PPT汇总1000多页.pptx

学习知识图谱或有做知识图谱的小伙伴福利来了1000多页知识图谱PPT资料及素材,非常完美的学习资料。

2020-04-29

泡泡龙游戏JAVA版(带注释).zip

java版泡泡龙游戏,学习这个主要在提高你的java水平,用IDEA打开便可学习,是不可能多的资料,带注释。

2020-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除