自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

转载 MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2....

2018-07-31 10:14:21 308

转载 hadoop join之semi join

SemiJoin,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于reduce side join,跨机器的数据传输量非常大,这成了join操作的一个瓶颈,如果能够在map端过滤掉不会参加join操作的数据,则可以大大节省网络IO。实现方法很简单:选取一个小表,假设是File1,将其参与join的key抽取出来,保存到文件File3中,File3文件一般很小,可以放到内存中。在m...

2018-07-31 09:29:09 255

转载 hadoop join之map side join

在本例中,我们仍然采用上一例中的数据文件。之所以存在reduce side join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输。Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,以至于小表可以直接存放到...

2018-07-30 22:51:23 458 1

转载 hadoop join

在介绍这个实例之前,请各位参考:http://bjyjtdj.iteye.com/blog/1453410。reduce side join是一种最简单的join方式,其主要思想如下: 在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag),比如:tag=0表示来自文件File1,tag=2表示来自文件Fil...

2018-07-30 22:08:07 224

转载 Hive分区和桶的概念

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实底层都...

2018-07-30 21:38:39 362

转载 时间复杂度&空间复杂度分析

转发:https://blog.csdn.net/LF_2016/article/details/52453212时间复杂度: 一般情况下,算法中基本操作重复执行的次数是问题规模n的某个函数f(n),进而分析f(n)随n的变化情况并确定T(n)的数量级。这里用"O"来表示数量级,给出算法的时间复杂度。 T(n)=O(f(n)); 它表示随...

2018-07-29 10:42:26 1042

转载 递归树求解递归算法的时间复杂度

递归算法时间复杂度的计算方程式一个递归方程:    在引入递归树之前可以考虑一个例子:  T(n) = 2T(n/2) + n2  迭代2次可以得:  T(n) = n2+ 2(2T(n/4) + (n/2)2)  还可以继续迭代,将其完全展开可得:  T(n) = n2+ 2((n/2)2+ 2((n/22)2+ 2((n/23)2+ 2((n...

2018-07-29 10:28:34 5859

转载 关于时间复杂度和空间复杂度的计算

转:https://blog.csdn.net/mr_garfield__/article/details/78762478时间复杂度:一般情况下,算法中基本操作重复的次数就是问题规模n的某个函数f(n),进而分析f(n)随n的变化情况并确定T(n)的数量级。这里用‘o’来表示数量级,给出算法时间复杂度。T(n)=o(f(n));它表示随问题规模n的增大,算法的执行时间增长率和f(...

2018-07-28 21:22:01 498

原创 JAVA数据结构

抽象数据类型:将不同数据组成一个整体来描述一个新的事物面向对象 类是一种数据类型(非基本数据类型)  显示世界中是由很多对象组成,基于这些对象抽出了类  类:类型类别 代表一类个体         对象:是真正存在的一个个体         类是模板,对象是具体实例      4.类中包含:     所有对象共有的特征/属性 .....静的(变量)     所有对...

2018-07-28 18:44:06 384

转载 时间复杂度和空间复杂度

转发:https://www.cnblogs.com/mafeng/p/6831731.html前言一很多搞 iOS 开发的同学都没有学过算法,有一些甚至没有学过数据结构。在很多人的观念中,算法和数据结构只是在面试的时候有用。这些人的想法对吗?在我看来,也对,也不对。对于 iOS 开发来说,大多数时候都不需要算法和数据结构知识,但是如果你了解了算法和数据结构知识,在一些关键时候,这...

2018-07-28 18:07:56 1295

转载 抽象类和接口的对比

转:http://www.importnew.com/12399.html参数 抽象类 接口 默认的方法实现 它可以有默认的方法实现 接口完全是抽象的。它根本不存在方法的实现 实现 子类使用extends关键字来继承抽象类。如果子类不是抽象类的话,它需要提供抽象类中所有声明的方法的实现。 子类使用关键字implements来实现接口。它需要提供接口中...

2018-07-28 14:34:28 200

转载 java实现二分查找-两种方式

转:https://blog.csdn.net/maoyuanming0806/article/details/78176957二分查找是一种查询效率非常高的查找算法。又称折半查找。起初在数据结构中学习递归时实现二分查找,实际上不用递归也可以实现,毕竟递归是需要开辟额外的空间的来辅助查询。本文就介绍两种方法二分查找算法思想有序的序列,每次都是以序列的中间位置的数来与待查找的关键字...

2018-07-28 00:27:32 232

转载 Java中的锁分类

转:http://www.cnblogs.com/qifengshi/p/6831055.html在读很多并发文章中,会提及各种各样锁如公平锁,乐观锁等等,这篇文章介绍各种锁的分类。介绍的内容如下:公平锁/非公平锁 可重入锁 独享锁/共享锁 互斥锁/读写锁 乐观锁/悲观锁 分段锁 偏向锁/轻量级锁/重量级锁 自旋锁上面是很多锁的名词,这些分类并不是全是指锁的状态,有的指锁的...

2018-07-27 23:56:33 105

原创 快速排序的原理以及Java代码

package com.asiainfo.test;import java.util.Arrays;import sun.misc.Sort;public class QKSORT {  //基本思路是:选择一个值为key 一般是选择左边第一个为key  //先是从右向左找到小于 key 的值 将此值与 key 进行交换,由于key 是一个标记先不用交换 ;先是将low与high...

2018-07-26 23:57:27 207

转载 对比Oracle和Mysql在锁机制上的类似和差异点

转:https://blog.csdn.net/c332472988/article/details/52804078InnoDB行锁实现方式InnoDB行锁是通过给索引上的索引项加锁来实现的,这一点MySQL与Oracle不同,后者是通过在数据块中对相应数据行加锁来实现的。InnoDB这种行锁实现特点意味着:只有通过索引条件检索数据,InnoDB才使用行级锁,否则,InnoDB将使用表锁!...

2018-07-25 23:47:16 1367

转载 hive的row_number()、rank()和dense_rank()的区别以及具体使用

 参考:https://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=12016年10月17日 20:05:21阅读数:4931row_number()、rank()和dense_rank()这三个是hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。首先创建一个文...

2018-07-24 22:21:34 596

转载 什么是索引?索引类型有几种,各有什么特点?

转发:索引是对数据库表中一列或多列的值进行排序的一种结构,例如 employee 表的姓(name)列。如果要按姓查找特定职员,与必须搜索表中的所有行相比,索引会帮助您更快地获得该信息。 索引是一个单独的、物理的数据库结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。 索引提供指向存储在表的指定列中的数据值的指针,然后根据您指定的排序顺序...

2018-07-23 10:53:20 5209 1

转载 mysql聚合函数rollup和cube

转:https://blog.csdn.net/liuxiao723846/article/details/48970443一、with rollup:with rollup 通常和group by 语句一起使用,是根据维度在分组的结果集中进行聚合操作。——对group by的分组进行汇总。 假设用户需要对N个纬度进行聚合查询操作,普通的groupby语句需要N个查询和N次grou...

2018-07-23 09:45:21 2954

转载 分布式环境下,怎么保证线程安全

转:https://blog.csdn.net/Faker_Wang/article/details/80798732避免并发在分布式环境中,如果存在并发问题,那么很难通过技术去解决,或者解决的代价很大,所以我们首先要想想是不是可以通过某些策略和业务设计来避免并发。比如通过合理的时间调度,避开共享资源的存取冲突。另外,在并行任务设计上可以通过适当的策略,保证任务与任务之间不存在共享资源,比...

2018-07-21 23:08:02 1829 2

原创 Java 的Runnable和Callable的区别

Runnable和Callable的区别是,(1)Callable规定的方法是call(),Runnable规定的方法是run().(2)Callable的任务执行后可返回值,而Runnable的任务是不能返回值得(3)call方法可以抛出异常,run方法不可以(4)运行Callable任务可以拿到一个Future对象,表示异步计算的结果。它提供了检查计算是否完成的方法,以等待计算的完成,并检索...

2018-07-21 18:57:03 706

转载 JAVA多线程及线程状态转换

转发:https://www.cnblogs.com/nwnu-daizh/p/8036156.html以下内容整理自:http://blog.csdn.net/wtyvhreal/article/details/44176369线程:是指进程中的一个执行流程。  线程与进程的区别:每个进程都需要操作系统为其分配独立的内存地址空间,而同一进程中的所有线程在同一块地址空间中工作,这些线程可以...

2018-07-21 15:00:31 241

转载 Java 中常用缓存Cache机制的实现

转:https://www.cnblogs.com/JAYIT/p/5647924.html所谓缓存,就是将程序或系统经常要调用的对象存在内存中,一遍其使用时可以快速调用,不必再去创建新的重复的实例。这样做可以减少系统开销,提高系统效率。所谓缓存,就是将程序或系统经常要调用的对象存在内存中,一遍其使用时可以快速调用,不必再去创建新的重复的实例。这样做可以减少系统开销,提高系统效率。...

2018-07-21 11:20:30 845

转载 Java 中的 Reference

 1、强引用(StrongReference)    强引用不会被GC回收,并且在java.lang.ref里也没有实际的对应类型。举个例子来说:    Object obj = new Object();    这里的obj引用便是一个强引用,不会被GC回收。  2、软引用(SoftReference)    软引用在JVM报告内存不足的时候才会被GC回收,否则不会回收,正是由于...

2018-07-21 10:44:47 232

转载 java中的4种reference的差别和使用场景(含理论、代码和执行结果)

转:https://blog.csdn.net/aitangyong/article/details/39453365我们知道java语言提供了4种引用类型:强引用、软引用(SoftReference)、弱引用(WeakReference)和幽灵引用(PhantomReference),与引用密切相关的,还有一个引用队列ReferenceQueue。引用和引用队列的关系,对于垃圾回收来说非常重...

2018-07-20 23:41:25 344

转载 Java弱引用(WeakReference)的理解与使用

转:https://blog.csdn.net/zmx729618/article/details/54093532     看到篇帖子, 国外一个技术面试官在面试senior java developer的时候, 问到一个weak reference相关的问题. 他没有期望有人能够完整解释清楚weak reference是什么, 怎么用, 只是期望有人能够提到这个concept和java的G...

2018-07-20 22:25:46 368 1

原创 Java中如何实现代理机制(JDK、CGLIB)

代理分为两种:1.静态代理2.动态代理 动态代理又分为两种:jdk 实现  ;Cglib 实现3.Java中如何实现代理机制(JDK、CGLIB)JDK动态代理:代理类和目标类实现了共同的接口,用到InvocationHandler接口。CGLIB动态代理:代理类是目标类的子类,用到MethodInterceptor接口。注意:使用版本:首先介绍jdk 实现动态代理...

2018-07-20 17:25:35 555

转载 Java transient关键字使用小记

转:https://www.cnblogs.com/lanxuezaipiao/p/3369962.html1. transient的作用及使用方法      我们都知道一个对象只要实现了Serilizable接口,这个对象就可以被序列化,java的这种序列化模式为开发者提供了很多便利,我们可以不必关系具体序列化的过程,只要这个类实现了Serilizable接口,这个类的所有属性和方法都会...

2018-07-18 16:57:55 135

转载 Java 面试题及答案

JAVA基础JAVA中的几种基本类型,各占用多少字节? 下图单位是bit,非字节 1B=8bit String能被继承吗?为什么?不可以,因为String类有final修饰符,而final修饰的类是不能被继承的,实现细节不允许改变。平常我们定义的String str=”a”;其实和String str=new String(“a”)还是有差异的。前者默认调用的是String....

2018-07-18 16:40:47 516

转载 Java集合——HashMap、HashTable以及ConCurrentHashMap异同比较

转发:https://www.cnblogs.com/zx-bob-123/archive/2017/12/26/8118074.html0. 前言 HashMap和HashTable的区别一种比较简单的回答是:(1)HashMap是非线程安全的,HashTable是线程安全的。(2)HashMap的键和值都允许有null存在,而HashTable则都不行。(3)因为线程安...

2018-07-18 15:09:55 133

转载 java运算符优先级

优先级记忆方法转:https://blog.csdn.net/pc_gad/article/details/52861838优先级记忆方法:单目乘除为关系,逻辑三目后赋值。(前辈总结的)单目运算符:一次作用一个变量的运算符,又叫一元运算符单目:单目运算符+ –(正负数) ,++ --,!(逻辑非),~(按位取反)乘除:算数运算符:* / % + - (* / %优先级肯定是大于...

2018-07-17 23:49:50 288

转载 单例模式的八种写法比较

转:https://www.cnblogs.com/zhaoyan001/p/6365064.html单例模式是最常用到的设计模式之一,熟悉设计模式的朋友对单例模式都不会陌生。一般介绍单例模式的书籍都会提到 饿汉式 和 懒汉式 这两种实现方式。但是除了这两种方式,本文还会介绍其他几种实现单例的方式,让我们来一起看看吧。 简介单例模式是一种常用的软件设计模式,其定义是单例对象的类只能...

2018-07-17 22:53:35 291

转载 链表逆序(JAVA实现)

题目:将一个有链表头的单向单链表逆序分析:链表为空或只有一个元素直接返回; 设置两个前后相邻的指针p,q,使得p指向的节点为q指向的节点的后继; 重复步骤2,直到q为空; 调整链表头和链表尾;图解:  以链表A->B->C->D为例,逆序此链表。  0.初始状态                                                ...

2018-07-17 17:11:40 2354

转载 HashMap实现原理分析

转:https://blog.csdn.net/xuehuagongzi000/article/details/714491791. HashMap的数据结构 数据结构中有数组和链表来实现对数据的存储,但这两者基本上是两个极端。      数组数组存储区间是连续的,占用内存严重,故空间复杂的很大。但数组的二分查找时间复杂度小,为O(1);数组的特点是:寻址容易,插入和删除困难;...

2018-07-17 15:59:42 257

转载 Java并发编程:volatile关键字解析

转: https://www.cnblogs.com/dolphin0520/p/3920373.htmlvolatile这个关键字可能很多朋友都听说过,或许也都用过。在Java 5之前,它是一个备受争议的关键字,因为在程序中使用它往往会导致出人意料的结果。在Java 5之后,volatile关键字才得以重获生机。  volatile关键字虽然从字面上理解起来比较简单,但是要用好不是一件容...

2018-07-16 18:52:37 119

转载 Java中Map, List, Set和Queue的区别和使用场景

转:https://blog.csdn.net/kingcat666/article/details/755796321. Java集合类基本概念在编程中,常常需要集中存放多个数据。从传统意义上讲,数组是我们的一个很好的选择,前提是我们事先已经明确知道我们将要保存的对象的数量。一旦在数组初始化时指定了这个数组长度,这个数组长度就是不可变的,如果我们需要保存一个可以动态增长的数据(在编译时无...

2018-07-16 16:14:08 392

原创 hive 多用户访问模注意问题

首先是安装mysql 安装mysql数据库及客户端yum install mysql-serveryum install mysqlservicemysqld start 步骤一: yum -y install mysql-server 步骤二:service mysqld start 步骤三:mysql -u root -p  Enter password: (默认是空密码,按enter)   ...

2018-07-10 18:38:20 456

原创 spark on yarn webUI logs不能查看

执行spark on yarn 执行:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 1G --num-executors 3  ./lib/spark-examples-1.6.3-hadoop2.6.0.jar 10  命令执行成功后在yar...

2018-07-08 23:42:41 3901

原创 spark on yarn 部署问题

spark on yarn 部署报:java.io.IOException: Resource file:/usr/local/spark-1.6.3-bin-hadoop2.6/lib/spark-assembly-1.6.3-hadoop2.6.0.jar changed on src filesystem (expected 1530607524000, was 1478125561000解...

2018-07-08 21:28:14 1466

转载 python之Map函数 reduce 函数

转载:https://www.cnblogs.com/gongxr/p/7247855.htmlpython之Map函数# map()函数使用举例# 功能:map()接受一个函数f和一个或多个list,将f依次作用在list的每个元素,得到一个新的列表# 语法:map(方法名,列表,[列表2])# 注意:map()函数的返回值需要强制转换成list类型,且不改变原列表值list_1 = ...

2018-07-04 18:19:17 368

转载 关于python中带下划线的变量和函数 的意义

转载:https://www.cnblogs.com/wangshuyi/p/6096362.html总结:变量:1.  前带_的变量:  标明是一个私有变量, 只用于标明, 外部类还是可以访问到这个变量2.  前带两个_ ,后带两个_ 的变量:  标明是内置变量,3.  大写加下划线的变量:  标明是 不会发生改变的全局变量函数:1. 前带_的变量: 标明是一个私有函数, 只用于标明,2.  前...

2018-07-04 14:54:20 343

datagrip使用文档

datagrip 使用文档。

2022-05-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除