自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿尼古

你可以不够优秀,但是不要甘于平凡。

  • 博客(190)
  • 资源 (13)
  • 收藏
  • 关注

原创 spark读取hive表字段,区分大小写问题

spark任务读取hive表,查询字段为小写,但Hive表字段为大写,无法读取数据。

2023-10-12 16:35:43 1207

原创 docker 简洁版安装kafka做测试

docker 如何快速搭建单机kafka,顺利做验证test,可以参考。

2023-09-15 16:17:23 493

原创 Hive3.1.2伪分布式安装

Hive是何物,自己去百度,在此不多bb,直接开整…学习一个组件,个人觉得最重要的是先学会安装再说,巧妇难为无米之炊撒…

2023-07-13 18:39:16 378

原创 Hadoop 3.2.4 本机伪分布式安装

基本上操作步骤跟2.x的版本内容差异不大,我的理解除了能力强了外,就是把默认的http端口改了,有点意外,安装完成验证的时候,用50070试了半天,还以为自己安装错了呢,原来调整为了9870端口。在此不再多bb了。

2023-07-12 15:44:21 748

原创 谈笑间学会大数据—Mac系统ssh免密登录配置教程

Mac系统ssh免密登录配置教程

2022-12-15 14:58:29 762 1

原创 人生随笔

一直努力着,不是为了改变世界,而是为了不被世界所改变。

2022-07-06 14:19:00 48

原创 谈笑间学会白酒知识

谈笑间学会白酒知识——“搞定老岳父,爱情不迷路”2022年的第一篇博客,让我来为大家普及一下白酒的知识,快过年了,大部分人都要回家见家长了吧。去对象家不知道聊什么,可以跟老丈人聊白酒哦,毕竟男人嘛大部分都是爱酒人士。有需要的可以收藏起来哦。“搞定老岳父,爱情不迷路”香型分类白酒的香型分为:酱香型、浓香型、清香型、凤香型、米香型、芝麻香型、馥郁香型、特香型白酒、和其它香型。(1993年国家又颁布了“兼香型”)前四种香型比较成熟,趋于标准化和定型化。除前四种香型外,还有不少具有自己特点的好酒,其

2022-01-12 16:09:35 1335

原创 谈笑间学会数据仓库-为什么要维度建模?

是不是有很多人在学习数据仓库——维度建模的时候会有这种疑问呢?到底有何意义呢?请看下面通俗易懂的描述凡是建设数据仓库,一定会提到维度建模方法。这一方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、商品、地址等,事实是要度量的指标,如用户数、销售额等。按照一般书籍的介绍,维度建模还会分为星型模型、雪花模型等,各有优缺点,但很少直接回答一个问题,也就是数据仓库为什么要采用维度建模?这个...

2021-08-20 17:48:58 815

原创 谈笑间学会数仓—大数据建模过程

谈笑间学会数仓—大数据建模过程首先我们先来了解一下,大数据建模都需要遵循哪些原则呢?先来列举一下建模原则高内聚和低辑合将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型:将高概率同 时访问的数据放一起 ,将低概率同时访问的数据分开存储。核心模型与扩展模型分离建立核心模型与扩展模型体系,核心模型包括的宇段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要 ,不能让扩展模型的宇段过度侵人核心模型,以免破坏核心模型的架构简洁性与可维护性。公共处理逻辑下沉及单一越

2021-05-12 18:11:31 1340 2

原创 谈笑间学会MySQL调优

前言在应用开发的早期,数据量少,开发人员开发功能时更重视功能上的实现,随着生产数据的增长,很多SQL语句开始暴露出性能问题,对生产的影响也越来越大,有时可能这些有问题的SQL就是整个系统性能的瓶颈。SQL优化一般步骤**1、通过慢查日志等定位那些执行效率较低的SQL语句2、explain 分析SQL的执行计划**需要重点关注type、rows、filtered、extra。type由上至下,效率越来越高ALL 全表扫描index 索引全扫描range 索引范围扫描,常用语<,.

2021-02-19 09:55:58 239 1

原创 谈笑间学会数据结构&算法——重建二叉树

谈笑间学会数据结构&算法——重建二叉树题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。思路通过分析前序遍历和中序遍历的规律,前序遍历的第一个节点就是二叉树的根节点,中序遍历中,位于根节点前面的所有节点都位于左子树上,位于根节点后面的所有节点都位于右子树上面。通过这个规律,我们可以使用递归方法来重建二

2021-01-12 18:27:35 172

原创 谈笑间学会数据结构&算法——从尾到头打印链表

谈笑间学会数据结构&算法——从尾到头打印链表题目描述输入一个链表,按链表从尾到头的顺序返回一个ArrayList。代码示例/*** public class ListNode {* int val;* ListNode next = null;** ListNode(int val) {* this.val = val;* }* }**/import java.util.Array

2021-01-12 18:02:15 141

原创 谈笑间学会数据结构&算法——替换空格

谈笑间学会数据结构&算法——替换空格题目描述请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。代码示例public class Solution { public String replaceSpace(StringBuffer str) { if(str == null){ return null; }

2021-01-08 18:20:09 135

原创 谈笑间学会数据结构&算法——二维数组中的查找

经典机试题(剑指offer)谈笑间学会数据结构&算法——二维数组中的查找二维数组中的查找题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。思路通过分析可以很简单的找出一个规律,二维数组的最左下角的的点,该点的所在列上边的点都是减少的,该点所在行右边的点都是增加的。因此,我们以该点作为切入点,如果目标数比左下角的数大,则往右边移动;如果目标数

2021-01-07 15:55:27 133

原创 谈笑间学会数仓—维度层设计④

谈笑间学会数仓—维度层设计④特殊维度1.1、递归层次上篇博客已经了解了维度的层次结构,即维度属性以层次方式或一对多的方式相互关联;或者描述为不同维度之间的主从关系,比如商品和类目的关系、商品和品牌的关系等。递归层次指的是某维度的实例值的层次关系,比如淘宝类目体系,如下图所示:维度的递归层次,按照层级是否固定分为均衡层次结构和非均衡层次结构。比如类目,有固定数量的级别,分别是叶子类目、五级类目、四级类目、三级类目、二级类目、一级类目;地区,分别是乡镇/街道、区县、城市、省份、国家,对于这种具有固定数

2021-01-06 17:05:55 815

原创 谈笑间学会数仓—维度层设计④

谈笑间学会数仓—维度层设计④极限存储1.1、历史拉链存储历史拉链存储是指里用维度模型中缓慢变化维的第二种处理方式。这种处理方式是通过新增两个时间戳字段(start_dt 和 end_dt 命名仅供参考),将所有以天为粒度的变更数据记录下来。通常分区字段也是时间戳字段。举个例子:2020年1月1日,卖家A在淘宝网发布了B、C两个商品,前端商品表将生成两条记录t1、t2 ; 1月2日,卖家A将B商品下架了,同时又发布了商品D,前端商品表将更新记录t1,又新生产记录t3; 采用全量存储方式,在1月1日

2021-01-05 17:47:27 265

原创 浅谈数据中台

数据中台数据汇聚数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。数据采集工具Canal、DataX、Sqoop数据开发数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具。离线开发作业调度依赖调度:所有父作业运行完成后,当前作业才能开始运行。图64中的作业B,只有父作业A和C运行

2021-01-04 15:43:50 771

原创 记录2021年的第一个工作日

记录2021年的第一个工作日今天天气很好,没有乌云,今天也很开心,没有不悦让我们都庆幸一下,活着真好吧,2020整个一年都是糟心的,不顺心的,还好平安度过了。回顾20202020年做了几件错事,好在及时醒悟,及时止损。但2020年也成功地度过了自己第二个“本命年”也做了一些比较有意义的事情换了新工作,洗心革面,从头再来听起来好像有点瘆得慌呢?不过也就只是听起来而已~展望2021年2021年,新的开始,新的起点,也需要重新给自己定个目标和计划啦借用曾经同事的一张图来开启新的一年你完

2021-01-04 15:15:23 222 1

原创 谈笑间学会数仓—维度层设计③

谈笑间学会数仓—维度层设计③缓慢变化维数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化。与数据增长较为快速的事实表相比,维度变化相对缓慢。在一些情况下,保留历史数据没有什么分析价值;而在另外一些情况下,保留历史数据将会起到至关重要的作用。在Kimball的理论中,有三种处理缓慢变化维的方式,下面通过简单的实例进行说明。第一种处理方式:重写维度值采用此种方式,不保留历史数

2020-10-27 18:07:57 455

原创 谈笑间学会数仓—dim层设计②

维度整合数据仓库的定义:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。其中集成是数据仓库的四个特性中最重要的一个。数据仓库的重要数据来源是大量的、分散的面向应用的操作型环境。不同的应用在设计过程中,可以自由决策,主要满足本应用的需求,很少会考虑和其他系统进行数据集成。应用之间的差异具体表现在如下几个方面:应用在编码、命名习惯、度量单位等方面会存在很大的差异。比如不同应用对于用户的性别编码不同,有0和1、F和M等;不同应用的用户ID含义相同,但字段名称不同

2020-10-14 15:49:12 1092

原创 谈笑间学会数仓—dim层设计①

谈笑间学会数仓—维度层设计①维度的基本概念维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。维度所包含的表示维度的列,称为维度属性。维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。例如,在查询请求中,获取某类目的商品、正常状态的商品等,是通过约束商品类目属性和商品状态属性来实现的;统计淘宝不同商品类目的每日成交金额,是通过商品维

2020-09-25 18:11:06 2662

原创 python调用高德API实现地址转经纬度

python调用高德API实现地址转经纬度目的为了获取批量地址的经纬度而生的代码~过程网上资源网上也有一部分在线的网站已经实现了的,但是不是很准。比如:https://map.yanue.net/这种呢,部分地区还行,但是有一些是无法识别准确的?怎么搞呢?思考关键字:地址、经纬度、批量?地址和经纬度能够让你想到什么?地图?百度地图?高德地图?批量能让你想到什么?程序、脚本、代码实现呗?说干就干由于之前小编搞过高德API,那咱去查一下撒~翻一下接口,就找到了~接口如下:

2020-09-19 14:30:26 1101 4

原创 谈笑间学会数仓—主题域&&数据域

谈笑间学会数仓—主题域&&数据域在之前的文章里虽然没有按照顺序来,但是基本上都介绍了数据仓库建设的大概流程,比如技术架构方案设计、建模方法论、数仓分层、开发规范、数仓建设中的各种事实表、维度表、事务事实表、累计快照表、周期快照表、流水表、增量表、全量表等常用的表。那么下面再来说一下,漏掉的东西。那就是数仓建设中不可缺少的一环—域的划分。域又分为主题域、数据域,如何划分呢?一起来看一下吧~为什么会有域的概念呢?首先来看看数据仓库的定义吧,数据仓库是一个面向主题的、集成的、相对稳定的、反映

2020-09-08 17:01:46 7623

原创 谈笑间学会数仓—开发规范

谈笑间学会数仓—开发规范文章目录谈笑间学会数仓—开发规范前言数据库/表命名规范数据库公共维表 dim公共明细层 dwd公共汇总层 dws应用数据层 ads临时存储层 tmp字段命名规范关键字字段类型规范常用系统词汇SQL 编码规范编码原则基本需求编码规范代码头部字段排序要求select 子句排列与运算符前后间隔要求子查询嵌套编写与别名定义注释总体说明表设计规范表设计分区设计表数据存储规范前言为提高开发的进度,大数据中台开发,需要一套约定的数据库表与字段的命名规范,避免在后续开发中使用原来数据库表时,因

2020-09-07 17:37:47 510

原创 谈笑间学会数仓—建模方法论

谈笑间学会数仓—建模方法论ER模型数据仓库之父Bill Inmon提出的建模方法是从全企业的高度设计的一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务,在范式理论上符合3NF。数据仓库中的3NF与OLTP系统中的3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。其具有以下几个特点:需要全面了解企业业务和数据实施周期非常长对建模人员的能力要求非常高采用ER模型建设数据仓库模型的出发点是整合数据,将各个系统

2020-09-03 17:34:54 689 2

原创 谈笑间学会数仓—周期快照表&累积快照表

周期快照表按固定周期对事实表进行统计生成的表,按时间段保存记录,增量更新。应用场景需要统计一个季度的商品成交量怎么取做?如果用一个季度内的事实事务表进行计算,虽然可以得出结果但是效率太低,在实际生产中并不可行,因此,需要定期对指定的度量进行整合,作为周期快照表用于下游应用。一般设计事实表时,事务事实表和周期快照表是成对设计的,大部分的周期表由事务表加工产生,还有部分特殊数据是直接应用系统产生(如订单评价)。概念定义周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年

2020-09-01 15:15:06 4721 2

原创 Impala中的invalidate metadata 和refrsh

Impala中的invalidate metadata 和refrshimpala是啥子?Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。Impala与Hive有什么关系?Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hi

2020-08-31 15:27:48 1063

原创 谈笑间学会数仓—拉链表&&流水表

拉链表 && 流水表前言拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。流水表: 对于表的每一个修改都会记录,可以用于反映实际记录的变更。适用场景对比拉链表通常是对账户信息的历史变动进行处理保留的结果,流水表是每天的交易形成的历史;流水表用于统计业务相关情况,拉链表用于统计账户及客户的情况数据仓库之拉链表(原理、设计以及在Hive中的实现)

2020-08-27 18:54:08 1764

原创 谈笑间学会数仓—全量表&&增量表

全量表全量表增量表数据包含到前一天的全量数据前一天的增量数据分区不分区(ymd为当前日期)(但是也有按天全量设计的,也叫全量表)按照每一天分区保存每天所有的最新状态的数据。(1)全量表,有无变化,都要报(2)每次上报的数据都是所有的数据(变化的 + 没有变化的)一般导入数据时,不进行任何操作导入的数据就是全量表。例如:平时使用sqoop直接导入,或者load加载,不需要任何特殊的操作,全表覆盖或者先删除表再插入数据,就是全量表。以用户表为例,假设该表从2

2020-08-24 18:12:05 3853

原创 谈笑间学会数仓—维度表概念及设计案例

维度表维度定义从某个角度观察事实数据的窗口,存储的数据用来从某个角度描述事实。维度表可以看成是用户用来分析一个事实的窗口,它里面的数据应该是对事实的各个方面描述,比如时间维度表,它里面的数据就是一些日,周,月,季,年,日期等数据,维度表只能是事实表的一个分析角度。换句话说 维度表可以看作是用户来分析数据的窗口,维度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。维度的构成维度的元素:维

2020-08-21 11:52:35 2513

原创 Hadoop3.0初探-部署安装Hadoop

Hadoop3.0初探目录Hadoop3.0初探为什么要搞这篇博客呢?安装包下载首先配置ssh免密登录部署Hadoop安装前检查本地环境并安装jdk下载地址安装成功校验安装Hadoop下载对应安装包解压 && 并修改配置文件报错异常一报错异常二最后再贴一个环境变量的配置为什么要搞这篇博客呢?就是目前hadoop3.0 也出来很久了呢,想着自己本地搭建一套玩一下~MacBook Pro (13-inch, 2020, Four Thunderbolt 3 ports)2 GHz 四

2020-08-20 18:15:07 844

原创 谈笑间学会Hive—你不知道的2concat*

2concat*是啥子?指的是hive中的concat()函数、concat_ws()函数为啥子写呢?今天在核对数据的时候发现了一个问题,问题产生的原因是这样的。核对数据需要参照表对吧?不管是父表还是兄弟姐妹表,总之是要有关联的,才有办法核对数据嘛。怎么核数呢?核对表与对照表的数据量、记录数情况核对表中主键个数及是否存在重复(可能有人会说,既然是主键重复p呀,核算什么?大哥这里用的Hive没有主键的概念哦~)对照表 && 结果表进行关联核数,根据结果判断是否有异常主键数据

2020-08-19 15:23:06 277

原创 谈笑间学会数仓—表的种类和特征-事务事实表

谈笑间学会数仓—表的种类和特征-事务事实表事务事实表概念可以看做是保存某一事务的日志数据,事务一旦被提交就成为历史数据,只能以增量的方式维护。事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务记录一条记录。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。由于事实表具有稀疏性质 ,因此只有当天数据才会进入 当天的事实表中,相当于每个分区里面都是每天的数据,不包含之前的数据。事务事实表的

2020-08-19 11:16:26 768

原创 谈笑间学会数仓-技术架构设计

谈笑间学会-数仓技术架构设计1、前言为何要谈数据仓库技术架构设计呢?技术架构设计是建设数仓的必备因素之一,分层架构为我们捋清了数据的架构及分层规范,并没有真正落地到具体的实施?有人说技术架构有什么好设计的?直接开整呗?事实上并不是如此,成功始于计划,终于变化~总而言之,言而总之,数仓设计是需要有技术方案来落地的。那么主要包含哪些呢?离线、实时、离线+实时呗2、离线技术架构首先我们来看一波架构图吧小结离线技术架构无非包括以下几块内容的技术选型数据采集:data

2020-08-10 16:19:36 554 2

原创 谈笑间学会数仓-分层架构

谈笑间学会-数仓分层架构1、数据仓库1-1、什么是数仓呢?​ 数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集,从逻辑上讲数据仓库和数据库是没有什么区别的。​ 为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。1-2、为什么需要数据仓库?​

2020-08-06 18:00:24 2222 4

原创 谈笑间学会-Hbase Rowkey设计

谈笑间学会-Hbase Rowkey设计1、为什么Rowkey这么重要1.1、Rowkey是什么类食欲MySQL、Oracle中的主键,用于标示唯一的行完全是由用户指定的一串不重复的字符串;Hbase中的数据永远数据根据Rowkey的字典排序来排序的。1.2、Rowkey的作用读写数据通过Rowkey找到对应的Region;MemStore中的数据按RowKry字典顺序排序;HFile中的数据按Rowkey字典顺序排序1.3、Rowkey对查询的影响举个栗子—Row

2020-08-05 11:33:07 347

原创 MySQL报错caused by com.dtwave.common.exception.InnerException: Data truncation: Truncated incorrect DO

MySQL报错caused by com.dtwave.common.exception.InnerException: Data truncation: Truncated incorrect DOUBLE value: ‘null’错误sqlselect qywyh, tbrq, nbnd from xxx.xxx where zt = 1 and nbnd >= (YEAR(NOW())-5) and qywyh is not null报错日志:start to execu

2020-07-02 15:12:18 532

原创 谈笑间学会大数据-Hive中的分桶表

谈笑间学会大数据-Hive中的分桶表你可以不够优秀,但是不要甘于平凡Hive中的分桶表官方文档首先我们可以参考下官方文档,对于创建分桶表的一些描述https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-BucketedSortedTables什么是分桶表?​ 分桶是相对分区进行更细粒度的划分。分桶将整个数据内容安装某列属性值得hash值进行区分,如要安装name

2020-06-21 22:34:00 352

原创 谈笑间学会大数据-Hive中的排序

谈笑间学会大数据-Hive中的排序Hive中的四种排序order by 、 sort by 、 distribute by 、cluster by首先贴一下官网对于Hive排序的几种方法的介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy总述order by全局排序;对输入的数据做排序,故此只有一个reducer(多个reducer无法保证全局有序);只有一个reducer,会导致当输入规模较大

2020-06-15 00:14:26 566 2

原创 面试题① - java 反射机制

java 反射原理1、反射机制的概念:1.1、指在运行状态中对于任意一个类,都能够知道这个类的所有属性和方法,对于任意一个对象,都能调用它的任意一个方法.这种动态获取信息,以及动态调用对象方法的功能叫java语言的反射机制.1.2、反射提供的功能:在运行时判断任意一个对象所属的类在运行时构造任意一个类的对象在运行时判断任意一个类所具有的成员变量和方法在运行时调用任意一个对象的方法要想解剖一个类,必须先要获取到该类的字节码文件对象(class)。而解剖使用的就是Cl

2020-06-11 12:06:54 1513 1

大数据治理体系-标准规范

内容: 主要描述了大数据治理整体架构与体系及标准化的相关内容和探索,涵盖了数据治理的方方面面,整体框架结构及模块分析 适应人群: 从事大数据治理研究人员

2022-07-04

Tomcat日志仅供日志解析使用

之前分享过博客大数据离线web网站日志分析,好多大数据学习爱好者,想要拿到测试数据,可以来这里下载咯,每次发邮件挺麻烦滴~ 原博客地址:https://blog.csdn.net/MrZhangBaby/article/details/87360470 如果你没有C币,再私聊我吧~ 我有空在帮你转发邮件 上传内容主要包括两个文件,一个是我本地的,一个是历史测试数据文本

2021-01-05

Spark汇总知识点

spark相关的知识点整理出来的xmind,仅供参考~ 学习在于总结,希望能够帮助大家更快速的熟悉、了解或者复习这些内容。

2020-06-15

省市区行政csv数据

行政区域csv数据,从高德地图上面获取的,需要自取,不需要就参考这篇博客自己搞:https://blog.csdn.net/MrZhangBaby/article/details/103177408

2019-11-21

数据仓库和多维建模.pdf

数据仓库和多维建模专业电子书,很适合初学者进行学习了解~

2019-09-19

数据仓库之架构模型介绍-changhf.pptx

数据仓库之架构模型介绍,详细介绍了数据仓库的一些基本知识和概念,适合初学者~

2019-09-19

数据模型基本概念及建模方法论.ppt

数据模型基本概念及建模方法论电子书,很适合大数据、数据中台人员、建数仓的人员学习

2019-09-19

FlinkAPI.CHM

Flink官方文档,Flink1.9.0API,分别有javaAPI、scalaAPI、PythonAPI 在一个文件里面哦,自己搞的,比较方便~

2019-09-05

CDH 离线部署文档.docx

cdh集群安装部署文档,目前使用的是自己的本地环境,伪分布式做的,生产环境可能需要新增一些步骤。

2019-06-10

Mounty解决Mac上午发传输文件到NTFS存储U盘上.zip

Mounty解决Mac上午发传输文件到NTFS存储U盘上。以为mac是不支持的,只需要轻轻点击这个文件包,就可以实现传输了!

2019-05-16

canal 集成kerberos二次编译

canal整合集成了kerberos的kafka,完成全线认证,二次编译源码,使通过配置支持kerberos,源码包,详情见https://blog.csdn.net/MrZhangBaby/article/details/88394291

2019-03-11

ogg参考资料

ogg相关介绍文档,解析MySQL的binlog,以及相关数据库的一个中间件,如果不清楚ogg是啥,百度一下呗!哈哈....

2019-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除