自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 hive表更改元数据之后未选择级联,在查询时spark引擎和hive/tez引擎查询结果不一致问题

最近在工作中遇到一个问题:他人修改了数据表之后(加了两个字段,但是没有选择级联更改),用spark引擎查是可以查到数据,用tez/hive来查新增的两个字段的值是null值。 最后发现是分区的元数据和表的元数据不一致导致的,分区的元数据少了新增的两个字段,所以查出来数据是null。 下面是两段...

2020-05-11 20:41:30 79 0

原创 工作经验分享|你在工作中应该注意什么?

上一篇文章我分享了我在工作之余的一些丰富生活的方法 工作之余,如何丰富生活? 那这篇文章我来讲一讲我工作之中总结到的一些经验,希望能给刚步入工作的你一些帮助,有些见解不对的地方还请批评指正。 首先我理解对于一个校招生来说,有三个阶段: 1.刚入职,什么也不会,主要还是熟悉工作方式。(0...

2020-05-04 10:17:15 248 0

原创 工作之余,如何丰富生活?

我呢,参加工作的时间也不短了。 读书的时候经常和已经工作的同学聊天,他们经常说工作比较累,平常晚上回去就看看手机睡觉了,周末一般也是待在家里宅着。我有问过他们为什么周末不出去逛逛的原因,基本上我听到的回答都是说平常工作就很累了,早起晚归的,周末好不容易抓住一些时间,还是好好休息比较舒服。 当时...

2020-05-04 09:22:21 80 0

原创 pandas学习之DataFrame

上一节学习了Series相关的概念,这部分的知识是学习pandas另一数据结构:DataFrame的基础。 DataFrame是二维的、有标记的数据结构,它可以具有可能不同类型的列。 可以将其看做类似SQL表格,或者包含多个Series对象的字典。 DataFrame可以接受多种数据输入: ...

2020-03-24 18:57:37 39 0

原创 pandas学习之Series

搞机器学习、数据可视化这方面的工作、学习,pandas应该是必须要学习的内容。 pandas有两大数据结构:series以及dataframe。 这一篇文章写一些关于series的相关知识。 官方学习资料:https://pandas.pydata.org/pandas-docs/stabl...

2020-03-23 23:24:20 35 0

原创 星型模型和olap多维数据库

首先明确一个概念,星型模型只是种模型,不是一种实际存在的数据实体,它是将事实表和维度表通过外键组合起来的一种模型,一种建模方式。 而olap多维数据库是真实存在的一种数据形式,源自星型模型,通过星型模型的构建理念得到的事实表和维度表关联之后的数据集合, 它具备许多不同的分析角度的维度,方便分析人...

2020-02-06 10:14:35 359 2

原创 OLTP和OLAP的区别(个人理解)

在刚接触数据建模的时候,我对这两个概念也不是熟悉,只知道数据仓库中有olap类型的表,适合数据分析人员进行数据的上卷下钻(根据一定的维度属性进行数据统计)而一般的事务数据库的表类型是oltp,主要用于事务处理,后面慢慢了解之后才知道olap和oltp的区别。 oltp是On-Line Trans...

2019-12-22 19:07:58 89 0

原创 数据建模理论小结:Inmon和Kimball

看了这么多数仓模型的对比文章,我想把我总结的一些东西记录下来。 说到数仓建模,那么肯定离不开两种方式:范式建模(Inmon)和维度建模(kim ball)。这两种方式各有适用的地方,需要根据具体应用场景进行选择。当然还有一种独立数据集市的方法,不过这种方法容易造成很多数据烟囱以及数据孤岛(没...

2019-12-21 13:06:07 395 0

原创 python中list赋值问题

有些时候我们在for循环中想把某一个list或者dict赋值给一些元素,比如下面这种场景: 我们想得到的是lst2的值是 [0] [0, 1] [0, 1, 2] [0, 1, 2, 3] [0, 1, 2, 3, 4] 但是结果是 [0, 1, 2, 3, 4] [0, 1, 2, ...

2019-12-19 23:38:46 93 0

原创 什么是可加,半可加,不可加事实?

众所周知,数据仓库的事实表中是有数字度量的,一般会根据这些数据度量以及提前规定好的一致性维度来进行统计等工作。 那么事实表中的数组度量分三种:1.可加事实,2.半可加事实,3.不可加事实 下面让我们来看看它们的定义与区别 1.可加事实 可加事实指的是该度量可以按照和事实表关联的任一维度...

2019-10-06 13:11:20 565 0

原创 hive数据倾斜及其解决方案

现在常见的数据倾斜分两种情况,一种是大量的空值导致的,另一种是一对多的情况造成的,下面分别说一下这两种的解决方案。 1.空值 这种情况下比较好解决,有两种解决方式,使用哪一种具体取决于你需不需要主键为空值的该行纪录的其它信息,因为有些时候这些信息也有用处。 下面是伪代码: 1.这种...

2019-09-11 19:58:21 61 0

原创 缓慢变化维学习

一开始看到这个词的时候给我的第一印象就是拉链表,缓慢变化表拥有从表创建开始到现在的所有数据,包括状态变化的数据。 那么什么是缓慢变化表呢? 首先要来了解一下什么是缓慢变化维,就是在业务进行过程中,会发生变化,但又不会频繁变化的维度。 假如现在有一张员工表,里面有A,B,C三位员工,里面纪...

2019-09-06 11:19:52 118 0

原创 如何设计一张事务事实表?

根据书籍:大数据之路,设计一张事务事实表的步骤分以下几步: 1.选择业务过程 在设计事实表的时候,首先得知道这张事实表要记录什么事实,也就是说,对应的业务过程是什么,是关于下单这个业务过程,还是支付还是交互之类的。 2.确定粒度 业务过程选定以后,就要针对每个业务过程确定一个粒度,...

2019-09-05 11:44:09 400 0

原创 什么是退化维度?

退化维度的维度表可以被剔除,从而简化维度数据仓库的模式。因为简单的模式比复杂的更容易理解,也有更好的查询性能。 当一个维度没有数据仓库需要的任何数据时就可以退化此维度。需要把退化维度的相关数据迁移到事实表中,然后删除退化的维度。 维度属性也可以存储到事实表中,这种存储到事实表中的维度列被称为“...

2019-08-30 16:59:41 1548 0

原创 什么是全量表,增量表,快照表,拉链表?

这一篇文章我们的目的是搞懂这四种表的概念,闲话不多说,直接看文字。 全量表 全量表没有分区,表中的数据是前一天的所有数据,比如说今天是24号,那么全量表里面拥有的数据是23号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截止到当前最新的、全量的...

2019-08-24 11:52:56 2923 0

原创 MAC环境下每次打开sublime都是新建窗口解决办法

每次新把文件夹设置为project之后,然后点击左上角的关闭按钮,下一次打开之后又是一个新的空界面,之前添加的project信息也是空的,原因是什么呢? 因为我们每次关闭都是手动的点击左上角关闭按钮,如果想要保存原有的project信息以及文件信息或者说上一次的工作状态的话,需要用command...

2019-08-23 16:33:54 175 0

原创 事实表的分类:事务事实表,周期快照事实表,累计快照事实表

维度建模数仓领域中的事实表大致分以下三种:事务事实表,周期快照事实表,累计事实表。 事务事实表与周期快照事实表、累积快照事实表虽然使用相同的一致性维度,但是它们在内容构成以及业务描述上还是有很大的区别。 1.事务事实表 事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实...

2019-08-11 14:41:01 2847 0

原创 原子指标和衍生/派生指标

按照个人的理解,不加任何修饰词的指标就是原子指标,也叫度量,一般存在于olap表中,例如订单量,用户量的等等。 而在原子指标上进行加减乘除或者修饰词的限定等等都是派生指标, 衍生/派生指标=原子指标+时间周期+修饰词 例如:近7天订单量,近7天北京市的订单量,近1个月北京市的新增用户数,近7...

2019-08-03 00:52:17 2161 2

原创 Spark的map和flatmap的区别

最近学习spark,然后遇到了这么一个题,有如下数据: http://bigdata.edu360.cn/laozhang http://bigdata.edu360.cn/laoduan http://javaee.edu360.cn/xiaoxu 要统计最受欢迎的老师,然后我就试了一下map...

2019-04-09 14:57:29 150 0

原创 毕业论文调格式之页码,页眉页脚,目录页码右对齐

前言 相信大家在毕业季的时候为了调文章的格式有苦恼过吧。下面给大家带来一些我最近搜到的、或者总结到的一些关于页眉页脚,页码和目录的一些链接和心得。 调整页眉页脚 https://jingyan.baidu.com/article/d2b1d1026cb7d65c7f37d46f.html 如果没调...

2019-04-01 10:11:25 1091 0

原创 Latex中插入用origin绘画的两条坐标轴,双x轴或者双y轴拥有不同刻度的图片

先上效果图,如果所示,上面x轴的刻度从20-30,下面x轴的刻度从0-6,这样就达到了上下两条x轴显示不同刻度的目的。 下面我们说一下怎么做到的,其实比较简单,通过添加一层图层,就可以做到了,也就是说上方的x周和下方的x轴不在一个图层,所以它们各自变化刻度的时候互相没有影响。 至于右边的y...

2019-03-26 10:14:16 4163 4

原创 标量、向量、矩阵求导(两种布局方式)

问题引入 首先以一个网上很多博文引用的例子来开篇,例子见下图 问题初试 在了解向量和向量求导的时候,我看过以下一些公式: 首先Ax是个m维的列向量,它对x求偏导是个列向量对列向量求偏导的格式,所以可以套用上述公式(10),那么得到的是: 那么就转换成了标量对向量的求偏导的形式了,可以套用上...

2019-01-11 14:00:00 2092 14

原创 idea用maven3.6.0下载源码失败(ubuntu环境下)

今天在代码里面想看看jama包下部分代码,但是点击Download Sources提示在idea环境下不行,提示Cannot download sources Sources not found for:XXX.jar 我用的maven版本是3.6.0,后来上网查了一些资料,发现可能是maven...

2019-01-09 11:03:18 488 0

原创 AbstractQueuedSynchronizer(aqs)中acquireShared和releaseShared的理解

上一篇我们看了aqs中独占模式下acquire和release的代码(https://blog.csdn.net/a6822342/article/details/84839391)。下面我们来看看共享模式下的acquireShared和releaseShared的代码。 首先先看acquire...

2018-12-07 15:30:09 1408 0

原创 AbstractQueuedSynchronizer(aqs)中acquire和release的理解

Aqs有两种模式,一种独占模式,一种共享模式,他们获取资源的方法分别对应 acquire-release、acquireShared-releaseShared(见此博文 https://blog.csdn.net/a6822342/article/details/84875304)   这...

2018-12-05 17:04:23 311 0

原创 错误:Unable to initialize MapOutputCollector的解决办法

我是因为把我自己定义的bean当成key从map端传到reduce端了,但是我没有针对实现的WritableComparable接口,而是实现的Writable和Comparable接口(讲道理WritableComparable接口也是对这两个接口做了整合,为什么我分别实现就不行呢?),然后报了...

2018-10-28 23:22:44 1059 0

原创 从一个例子来看java类的初始化过程

我从网上找了一下例子,然后把它放在idea里面debug,它的大体顺序是这样的 首先是类的静态方法,再是类的静态变量,然后是创建静态对象,创建静态对象的时候,首先是非静态的成员,(但是在这里它因为后面的静态变量还没初始化,所以创建静态对象的时候,它不对里面的非静态变量进行初始化),非静态语句块的...

2018-10-06 14:26:16 111 0

原创 windows搭建hadoop源码阅读(debug)环境

之前自己有搭过一次,不过是在ubuntu上弄的,然后这次想在windows上弄一个源码阅读环境,说干就干,网上找了一些资料,然后结合自己的情况弄了一套,下面是步骤: 一.下载hadoop的安装包,将其解压缩,然后下载winutils.exe和hadoop.dll将其放在hadoop的bin目录下...

2018-09-28 19:29:37 608 0

原创 Hbase的flush以及compaction的一些理解

  最近自己看了一些关于flush和compaction的博客,其中也有一些总结和感悟,于是想写下来,以供后续参考,如果有理解的不对的地方,我们可以一起讨论~ 什么是Flush和Compaction?它们是在什么情况下进行的呢?他们的作用是什么? Flush我理解的就是将memstore中缓存...

2018-09-20 14:28:34 708 0

原创 Python连接Hive(基于impyla)

如何安装impyla请看我这篇博文:https://blog.csdn.net/a6822342/article/details/80841056以下是我的一些包的版本thirftpy 0.3.9thirft-sasl 0.2.0thirft 0.11.0sasl 0.2.1pure-sasl 0...

2018-06-28 15:43:12 9819 1

原创 error: Unable to find vcvarsall.bat解决办法

我在windows上安装impyla的时候报错然后上网搜了一些资料,有说直接安装whl文件的(失败),有说安装vs的(太大了),有说安装单独的开发工具集(vc++),下面我采用的就是安装vc++,它的下载网址和说明如下:https://blogs.msdn.microsoft.com/vcblog...

2018-06-28 14:52:24 19516 18

原创 Python连接Hive(基于PyHive)

要想使用python连接hive,首先得下载以下几个包:   pip install sasl pip install thrift pip install thrift-sasl pip install PyHive   但是我们在安装sasl的时候可能会报错,导致安装不上,这个时候就...

2018-06-16 16:34:30 37662 32

原创 hive的客户端操作(jdbc链接)

最近在学习hive,今天学到hive的远程连接,以下是我在学习过程中遇到的一些问题,和大家分享一下:首先,你如果要使用hive的远程连接,你得先开启hive的远程服务:之前我看视频以及一些资料上写的是在命令行输入:hive --service hiveserver 这个命令是基于0.10的版本(好...

2018-06-14 20:48:39 2858 0

原创 Latex中插入多张图片,实现并排排列或者多行多列排列

最近需要用latex插入多张图片,达到这么一个效果。 但是我原来只插入过一张图片(图片内容来源于网络;是国漫一人之下的宝儿姐。强推这部国漫~),代码如下,效果如图: \begin{figure} \centering \includegraphics[height=4.5cm,width...

2018-06-01 09:50:35 173011 69

原创 Origin中画折线图实现双X轴和双Y轴(双坐标轴)

近段时间用Originpro画图,感觉还是比较容易上手的,但是画出来的图一般是单边坐标轴,和一些论文里面的图还是有区别的,如下图: 而论文中的一般是这种: 那么这种应该怎么去通过第一张图去实现呢?其实很简单,只要点击对应的坐标轴,然后会出来一个对话框,我们再对其中的一些属性进行勾选...

2018-05-24 18:51:31 22899 2

原创 Java中用Mybatis插入mysql报主键重复问题的解决方法

首先思路是这样的,先去数据表里面去找有没有这个主键的数据(如果有会有返回值,如果没有则返回null),如果有则对该条数据进行更新操作,如果没有,则对数据表进行插入操作。原来数据表中有这些数据。数据表对应的bean的结构如下:public class DataBean { String ke...

2018-05-08 20:47:43 7456 3

原创 Hadoop MR程序的几种提交模式

一.问题来源为什么我们在windows下用编程集成工具或者linux下用编程集成工具来run我们编写的mr程序的时候是在本地jvm中运行,而我们在linux上用命令行:hadoop jar 提交我们的jar文件的时候就提交到集群去运行了呢?具体原因是:如果是RunJar中包含了和RM通信的rpc客...

2018-04-26 15:40:30 1284 0

原创 Hadoop中yarn的概念和Yarn框架的大体工作流程

一.Yarn的组成Resource manager(RM),node manager(NM)。二.Yarn的目的Yarn是负责集群的资源调度。 三.我们提交jar包的时候应用的命令是:hadoop jar jar包 主类地址。然后我们的配置job运行时的一些参数的时候,有这么一句代码:job.wa...

2018-04-26 11:30:32 644 0

原创 hdfs下载数据源码分析之open方法浅析

下面我们来看看open方法。我们之前简单分析过,这个open方法,打开这个在hdfs上的文件的时候,首先是要通过和namenode的通信来确定这个文件的块在哪些datanode上面,然后通过建立与datanode的通信来获得对应块文件流。Open方法返回的是文件系统的数据输入流,然后调用的是抽象的...

2018-04-25 12:47:11 134 0

原创 hdfs下载数据源码分析之FileSystem.get(conf)浅析

以下代码都是根据在看hadoop视频的时候所用的代码,以下分析是结合视频讲解和我看视频的理解所写的文章。如有侵权请与我联系~一.通过跟踪这段源码来探究hdfs的下载数据的源码分析。其中包括程序中怎么通过读取conf来获得fs实例,然后fs实例怎么通过rpc机制来从namenode上拿到元数据信息,...

2018-04-25 12:30:53 3601 2

提示
确定要删除当前文章?
取消 删除