菜鸟不会飞

记录是最好的学习方法

(十六)Hive 优化策略

正文   一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count...

2018-12-25 10:49:12

阅读数 34

评论数 0

(十五)Hive 执行过程实例分析

目录 一、Hive 执行过程概述 1、概述 2、Hive 操作符列表 3、Hive 编译器的工作职责 4、优化器类型 二、join 1、对于 join 操作 2、实现过程 3、具体实现过程 三、Group By 1、对于 group by操作 2、实现过程 四、Disti...

2018-12-25 10:41:11

阅读数 30

评论数 0

(十四)Hive的数据倾斜

目录 1、什么是数据倾斜? 2、Hadoop 框架的特性 3、主要表现 4、容易数据倾斜情况 5、产生数据倾斜的原因 6、业务场景 (1)空值产生的数据倾斜 (2)不同数据类型关联产生数据倾斜 (3)大小表关联查询产生数据倾斜  正文 1、什么是数据倾斜? 由于数据分布不均...

2018-12-18 11:47:48

阅读数 40

评论数 0

(十三)Hive的Shell操作

目录 一、Hive的命令行 1、Hive支持的一些命令 2、语法结构 3、示例 二、Hive的参数配置方式 1、Hive的参数配置大全 2、Hive的参数设置方式 正文 一、Hive的命令行 1、Hive支持的一些命令 Command Description quit...

2018-12-18 11:02:32

阅读数 265

评论数 0

(十二)Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK

目录 数据准备 数据格式 创建表 玩一玩CUME_DIST 说明 查询语句 查询结果  结果说明 玩一玩PERCENT_RANK 说明 查询语句 查询结果 结果说明 正文  这两个序列分析函数不是很常用,这里也练习一下。   数据准备 数据格式 cooki...

2018-12-17 15:17:18

阅读数 28

评论数 0

(十一)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

目录 概述 数据准备 数据格式 创建表 玩一玩NTILE 说明 查询语句 查询结果 比如,统计一个cookie,pv数最多的前1/3的天 玩一玩ROW_NUMBER 说明 分组排序 查询结果 玩一玩RANK 和 DENSE_RANK 查询语句 查询结果 ROW_N...

2018-12-17 14:16:30

阅读数 18

评论数 0

(十)Hive分析窗口函数(一) SUM,AVG,MIN,MAX

目录 数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 玩一玩AVG 查询语句 查询结果 玩一玩MIN 查询语句 查询结果  玩一玩MAX 查询语句 查询结果 正文 数据准备 数据格式 ...

2018-12-17 10:59:04

阅读数 30

评论数 0

(二)垃圾收集器与内存分配策略

上一篇主要讲解的是JVM内存管理,内存分区,在本篇博客中主要讲解的是垃圾收集器以及内存分配策略。 1、概述        JAVA语言中,JVM内存管理都是“自动化”的,为啥还需要继续关注JVM内存管理呢?原因很简单,JVM内存管理不是万能的,也会出现内存泄漏以及内存溢出等问题,当垃圾收集成为...

2018-12-14 15:50:50

阅读数 37

评论数 0

(一)JAVA内存区域与内存溢出异常

目录 0、前沿 1、概述 2、运行时数据区域 2.1、程序计数器 2.2、JAVA虚拟机栈 2.3、本地方法栈 2.4、JAVA堆 2.5、方法区 2.5.1、运行时常量池 3、HotSpot虚拟机 3.1、对象的创建 3.2、对象的内存布局 3.3、对象的访问定位 0...

2018-12-13 18:04:37

阅读数 47

评论数 0

拥抱人工智能,从机器学习开始

在阿里天池上看到这篇文章,还是很值得一看的。 转载链接:https://yq.aliyun.com/articles/604097?spm=a2c4e.11163080.searchblog.100.65e02ec1Sk1FCu 目录 1. 机器学习 2. 机器学习算法:是使计算机具有智能...

2018-12-06 16:45:40

阅读数 82

评论数 0

Kaggle&天池比赛经验

写在前面 Kaggle的数据挖掘比赛近年来很火,以至于中国兴起了很多很多类似的比赛,做了两个这种类型的比赛了,Jdata用户商品购买预测和用户位置精准预测,积累了相当多的比赛经验了,虽然两次成绩都不是特别好,59/4590 和 179/2844 。这些比赛的套路从根本上都是一毛一样的,我下面可以...

2018-12-06 12:44:47

阅读数 1215

评论数 0

Kaggle比赛----入门指导

介绍 参加Kaggle比赛,我必须有哪些技能呢? 你有没有面对过这样的问题?最少在我大二的时候,我有过。过去我仅仅想象Kaggle比赛的困难度,我就感觉害怕。这种恐惧跟我怕水的感觉相似。怕水,让我无法参加一些游泳课程。然而,后来,我得到的教训是只要你不真的跨进水里,你就不知道水有多深。相同的哲...

2018-12-06 11:44:11

阅读数 278

评论数 0

七大统计模型

一、多元回归  1、概述:  在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。    2、分类   分为两类:多元线性回归和非线性线性回归;...

2018-12-05 16:50:48

阅读数 65

评论数 0

SSM框架中MVC各层的作用以及运行流程

       这篇博文主要介绍的是SSM(Spring、SpringMVC、Mybatis)框架中,MVC各层的作用以及各层之间的交互和框架整体运行流程。 一、MVC各层级间的作用及关系 表现层(springMVC):Controller层(Handler层) 负责具体的业务模块流程的控制...

2018-12-05 08:59:44

阅读数 991

评论数 0

Spring IoC 容器的设计与实现原理

上一篇文章讲解的是IOC的原理,这一篇文章主要讲解Spring IoC 容器的设计与实现原理   1.spring的IOC容器 在 Spring IoC 容器的设计中,容器有两个系列,可以看成是容器的具体表现形式: BeanFactory 简单容器:实现了容器的基本功能,典型方法如 g...

2018-12-04 11:32:34

阅读数 74

评论数 0

IOC概念的详解

1.1.IOC是什么?        Ioc—Inversion of Control,即“控制反转”,不是什么技术,而是一种设计思想。在Java开发中,Ioc意味着将你设计好的对象交给容器控制,而不是传统的在你的对象内部直接控制。 ●谁控制谁,控制什么:传统Java SE程序设计,我们直接在...

2018-12-04 10:47:12

阅读数 114

评论数 0

Redis单线程的原因

一、前言 近乎所有与Java相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据” ,复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题,这些看似不常见的概念,都与我们的缓存服务器相关,一般常用的缓存服务器有Redis、Memcached等...

2018-12-04 10:33:34

阅读数 34

评论数 0

Ubuntu16.04环境下搭建Hadoop3.0.3伪分布式集群

    最近刚好赶上双11腾讯促销,于是抢购了一个8核16G内存的云服务器,加上业务上需要用到hadoop,hive,于是想搭建搭建一个hadoop分布式集群,但是限于自己手头上服务器数量不多,因此打算先搭建一个hadoop伪分布式集群。   首先介绍一下我的安装环境:   (1)java v...

2018-11-14 23:32:36

阅读数 243

评论数 0

基于tableau进行APP高频访问场景数据分析

        上周接到一个任务,就是进行APP月活数据分析,想到之前一直被学弟安利的一款BI软件---tableau,于是乎直接上手操作起来。        直接进入主题 (1)数据源是什么?            系统下载的一个excel文件,内容如下所示:(由于数据不方便外泄,所以就打...

2018-11-09 09:04:18

阅读数 163

评论数 0

利用Tableau绘制湖北省市区县用户访问App时的热力图

          最近一个任务:利用Tableau绘制出用户访问手机某App时热力图,这其实难度不大,但是一个很好熟悉Tableau功能机会的例子,毕竟要玩透Tableau还是需要下很多工夫的,所以本着学习分享的态度就记下这篇博客了。 目录 (1)我们有什么?      (2)我们还差什么...

2018-11-09 00:13:15

阅读数 915

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭