自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

菜鸟不会飞

记录是最好的学习方法

  • 博客(17)
  • 收藏
  • 关注

转载 (十六)Hive 优化策略

正文 一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF,不怕数据倾斜问题,hadoop 在 map 端的汇总合并优化,使 数据...

2018-12-25 10:49:12 1089

转载 (十五)Hive 执行过程实例分析

目录一、Hive 执行过程概述1、概述2、Hive 操作符列表3、Hive 编译器的工作职责4、优化器类型二、join1、对于 join 操作2、实现过程3、具体实现过程三、Group By1、对于 group by操作2、实现过程四、Distinct1、对于 distinct的操作2、实现过程3、详细过程解释正文一、Hive...

2018-12-25 10:41:11 1126

转载 (十四)Hive的数据倾斜

目录1、什么是数据倾斜?2、Hadoop 框架的特性3、主要表现4、容易数据倾斜情况5、产生数据倾斜的原因6、业务场景(1)空值产生的数据倾斜(2)不同数据类型关联产生数据倾斜(3)大小表关联查询产生数据倾斜 正文1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、Hadoop 框架的特性  A、不怕数据大,怕数...

2018-12-18 11:47:48 1249

转载 (十三)Hive的Shell操作

目录一、Hive的命令行1、Hive支持的一些命令2、语法结构3、示例二、Hive的参数配置方式1、Hive的参数配置大全2、Hive的参数设置方式正文一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the interactive shell....

2018-12-18 11:02:32 1252

转载 (十二)Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK

目录数据准备数据格式创建表玩一玩CUME_DIST说明查询语句查询结果 结果说明玩一玩PERCENT_RANK说明查询语句查询结果结果说明正文 这两个序列分析函数不是很常用,这里也练习一下。 数据准备数据格式cookie3.txtd1,user1,1000d1,user2,2000d1,user3,3000...

2018-12-17 15:17:18 1565

转载 (十一)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

目录概述数据准备数据格式创建表玩一玩NTILE说明查询语句查询结果比如,统计一个cookie,pv数最多的前1/3的天玩一玩ROW_NUMBER说明分组排序查询结果玩一玩RANK 和 DENSE_RANK查询语句查询结果ROW_NUMBER、RANK和DENSE_RANK的区别 正文概述本文中介绍前几个序列函数,N...

2018-12-17 14:16:30 702

转载 (十)Hive分析窗口函数(一) SUM,AVG,MIN,MAX

目录 数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 玩一玩AVG 查询语句 查询结果 玩一玩MIN 查询语句 查询结果  玩一玩MAX 查询语句 查询结果 正文数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2...

2018-12-17 10:59:04 1118

原创 (二)垃圾收集器与内存分配策略

上一篇主要讲解的是JVM内存管理,内存分区,在本篇博客中主要讲解的是垃圾收集器以及内存分配策略。1、概述       JAVA语言中,JVM内存管理都是“自动化”的,为啥还需要继续关注JVM内存管理呢?原因很简单,JVM内存管理不是万能的,也会出现内存泄漏以及内存溢出等问题,当垃圾收集成为系统达到更高并发量的瓶颈时,我们就需要对JVM内存管理进行监控、干预。     由上一篇博客知道,...

2018-12-14 15:50:50 702

原创 (一)JAVA内存区域与内存溢出异常

目录0、前沿1、概述2、运行时数据区域2.1、程序计数器2.2、JAVA虚拟机栈2.3、本地方法栈2.4、JAVA堆2.5、方法区2.5.1、运行时常量池3、HotSpot虚拟机3.1、对象的创建3.2、对象的内存布局3.3、对象的访问定位0、前沿        借用JVM书中一句话:JAVA和C++之间有一堵由内存动态分配和垃圾收集技术...

2018-12-13 18:04:37 837

转载 拥抱人工智能,从机器学习开始

在阿里天池上看到这篇文章,还是很值得一看的。转载链接:https://yq.aliyun.com/articles/604097?spm=a2c4e.11163080.searchblog.100.65e02ec1Sk1FCu目录1. 机器学习2. 机器学习算法:是使计算机具有智能的关键下面我们将选取几种常见的算法,一一介绍。1. 线性回归:找到一条直线来预测目标值2....

2018-12-06 16:45:40 1134

转载 Kaggle&天池比赛经验

写在前面Kaggle的数据挖掘比赛近年来很火,以至于中国兴起了很多很多类似的比赛,做了两个这种类型的比赛了,Jdata用户商品购买预测和用户位置精准预测,积累了相当多的比赛经验了,虽然两次成绩都不是特别好,59/4590 和 179/2844 。这些比赛的套路从根本上都是一毛一样的,我下面可以和大家探讨一个大致的做题套路以及怎么往高分走的方向,但是总结来说这就是个拼体力的任务,和智力无关。(虽...

2018-12-06 12:44:47 25239 6

转载 Kaggle比赛----入门指导

介绍参加Kaggle比赛,我必须有哪些技能呢?你有没有面对过这样的问题?最少在我大二的时候,我有过。过去我仅仅想象Kaggle比赛的困难度,我就感觉害怕。这种恐惧跟我怕水的感觉相似。怕水,让我无法参加一些游泳课程。然而,后来,我得到的教训是只要你不真的跨进水里,你就不知道水有多深。相同的哲学对Kaggle也一样适用。没有试过之前不要下结论。 Kaggle,数据科学的家园,为竞赛...

2018-12-06 11:44:11 6155

转载 七大统计模型

一、多元回归 1、概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。  2、分类  分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为y=u    u=ln...

2018-12-05 16:50:48 13663

转载 SSM框架中MVC各层的作用以及运行流程

       这篇博文主要介绍的是SSM(Spring、SpringMVC、Mybatis)框架中,MVC各层的作用以及各层之间的交互和框架整体运行流程。一、MVC各层级间的作用及关系表现层(springMVC):Controller层(Handler层)负责具体的业务模块流程的控制Controller层通过要调用Service层的接口来控制业务流程,控制的 配置也在Spring...

2018-12-05 08:59:44 9095 2

翻译 Spring IoC 容器的设计与实现原理

上一篇文章讲解的是IOC的原理,这一篇文章主要讲解Spring IoC 容器的设计与实现原理 1.spring的IOC容器在 Spring IoC 容器的设计中,容器有两个系列,可以看成是容器的具体表现形式: BeanFactory 简单容器:实现了容器的基本功能,典型方法如 getBean、containsBean、isSingleton; ApplicationCo...

2018-12-04 11:32:34 1952

原创 IOC概念的详解

1.1.IOC是什么?       Ioc—Inversion of Control,即“控制反转”,不是什么技术,而是一种设计思想。在Java开发中,Ioc意味着将你设计好的对象交给容器控制,而不是传统的在你的对象内部直接控制。●谁控制谁,控制什么:传统Java SE程序设计,我们直接在对象内部通过new进行创建对象,是程序主动去创建依赖对象;而IoC是有专门一个容器来创建这些对象,即由...

2018-12-04 10:47:12 10714

转载 Redis单线程的原因

一、前言近乎所有与Java相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据” ,复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题,这些看似不常见的概念,都与我们的缓存服务器相关,一般常用的缓存服务器有Redis、Memcached等,而笔者目前最常用的也只有Redis这一种。如果你在以前面试的时候还没有遇到过面试官问你:为什么说...

2018-12-04 10:33:34 897

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除