自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yanzhelee

大数据小菜

  • 博客(13)
  • 收藏
  • 关注

原创 Hive自定义函数

Hive自定义函数1 UDF用户自定义函数(user defined function)针对单条记录。1.1 创建函数流程添加pom依赖自定义一个java类继承UDF类重写evaluate方法打成jar包在hive中执行add jar方法在hive执行创建模板函数1.2 实例一第一步、添加依赖<?xml version="1.0" encoding="UTF-8"?> <de

2017-09-28 14:16:48 1494

原创 利用com.maxmind.db根据ip地址获取地理位置信息

利用com.maxmind.db根据ip地址获取地理位置信息1 添加Maven依赖<dependency> <groupId>com.maxmind.db</groupId> <artifactId>maxmind-db</artifactId> <version>1.0.0</version></dependency>2 用法2.1 简单示例File database =

2017-09-27 23:20:46 2814 1

原创 通过反射完成不同对象之间的属性拷贝

通过反射完成不同对象之间的属性拷贝import java.beans.BeanInfo;import java.beans.Introspector;import java.beans.PropertyDescriptor;import java.lang.reflect.Method;import java.util.List;/** * 数据工具类 */public class D

2017-09-25 00:19:58 751

转载 Spark Streaming缓存、Checkpoint机制

Spark Streaming缓存、Checkpoint机制1 Spark Stream 缓存Dstream是由一系列的RDD构成的,它同一般的RDD一样,也可以将流式数据持久化,采用同样的persisit方法,调用该方法后DStream将持久化所有的RDD数据。这对于一些需要重复计算多次或者数据需要反复被 使用的DStream特别有效。像reduceByWindow、reduceByKeyAndW

2017-09-23 23:21:40 7770

转载 Spark Streaming——DStream Transformation操作

Spark Streaming——DStream Transformation操作Spark的各个子框架都是基于spark core的,Spark Streaming在内部的处理机制是,接收实时流的数据,并根据一定的时间间隔拆分成一批数据,然后通过Spark Engine处理这些批数据,最终得到处理后的一批结果数据。对应的批数据,在spark内核对应一个RDD实例,因此,对应流数据的DStream可

2017-09-19 23:41:29 1804

翻译 Spark RDD 持久化

Spark RDD 持久化注:该文档针对Spark2.1.0版本Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快(通常快10倍以上)。对应迭代算法和快

2017-09-15 18:02:37 596

翻译 Spark的广播变量和累加变量

通常情况下,当向Spark操作(比如map或者reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,Spark提供了两种有限类型的共享变量,广播变量和累加器。

2017-09-15 15:18:09 1228 1

转载 Scala Option(选项)

Scala Option(选项)Scala Option(选项)类型表示一个值得可选的(有值或者无值)。Option[T] 是一个类型为T的可选值得容器:如果值存在,Option[T]就是一个Some[T],如果不存在,Option[T]就是对象None。接下来看一段代码:val myMap:Map[Int,String] = Map(1 -> "tom")val v1:Option[String

2017-09-09 15:31:15 815

原创 Scala 高阶函数

Scala 高阶函数Scala混合了面向对象和函数式的特性。在函数式编程语言中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作。每当你想要给算法传入明细动作时这个特性就会变得非常有用。作为值的函数在Scala中,函数是“头等公民”,就和数字一样。你可以在变量中存放函数:import scala.math._val num = 3.14val fun = ceil _这段代码将num设为

2017-09-08 20:35:36 667

原创 apply方法和unapply方法

apply方法和unapply方法appply方法通常,在一个类的伴生对象中定义apply方法,在生成这个类的对象时,就省去了new关键字。请看下面代码:class Foo(foo:String){}object Foo{ def apply(foo:String) : Foo = { new Foo(foo) }}定义一个Foo类,并且在这个类中,有一个伴生对象Foo,里面定义了

2017-09-07 22:15:42 3036

原创 Hadoop InputFormat介绍

Hadoop InputFormat介绍1 概述我们在编写MapReduce程序的时候,在设置输入格式的时候,会调用如下代码:job.setInputFormatClass(KeyVakueTextInputFormat.class)通过上面的代码来保证输入的文件是按照我们想要的格式被读取,所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于读取普通文件的FileInput

2017-09-02 14:00:34 3826

原创 FileStatus类介绍

FileStatus类介绍FileStatus对象封装了文件系统中文件和目录的元数据,包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。FileStatus对象一般由FileSystem的getFileStatus()方法获得,调用该方法的时候要把文件的Path传递进去。FileStatus字段解析private Path path; // Path路

2017-09-02 10:05:37 10304

转载 Kafka背景及架构介绍

Kafka背景及架构介绍Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。

2017-09-01 00:47:00 739

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除