2017年09月_yanzhelee

原创 Hive自定义函数

Hive自定义函数1 UDF用户自定义函数(user defined function)针对单条记录。1.1 创建函数流程添加pom依赖自定义一个java类继承UDF类重写evaluate方法打成jar包在hive中执行add jar方法在hive执行创建模板函数1.2 实例一第一步、添加依赖<?xml version="1.0" encoding="UTF-8"?> <de

2017-09-28 14:16:48 1494

原创利用com.maxmind.db根据ip地址获取地理位置信息

利用com.maxmind.db根据ip地址获取地理位置信息1 添加Maven依赖<dependency> <groupId>com.maxmind.db</groupId> <artifactId>maxmind-db</artifactId> <version>1.0.0</version></dependency>2 用法2.1 简单示例File database =

2017-09-27 23:20:46 2814 1

原创通过反射完成不同对象之间的属性拷贝

通过反射完成不同对象之间的属性拷贝import java.beans.BeanInfo;import java.beans.Introspector;import java.beans.PropertyDescriptor;import java.lang.reflect.Method;import java.util.List;/** * 数据工具类 */public class D

2017-09-25 00:19:58 751

转载 Spark Streaming缓存、Checkpoint机制

Spark Streaming缓存、Checkpoint机制1 Spark Stream 缓存Dstream是由一系列的RDD构成的，它同一般的RDD一样，也可以将流式数据持久化，采用同样的persisit方法，调用该方法后DStream将持久化所有的RDD数据。这对于一些需要重复计算多次或者数据需要反复被使用的DStream特别有效。像reduceByWindow、reduceByKeyAndW

2017-09-23 23:21:40 7770

转载 Spark Streaming——DStream Transformation操作

Spark Streaming——DStream Transformation操作Spark的各个子框架都是基于spark core的，Spark Streaming在内部的处理机制是，接收实时流的数据，并根据一定的时间间隔拆分成一批数据，然后通过Spark Engine处理这些批数据，最终得到处理后的一批结果数据。对应的批数据，在spark内核对应一个RDD实例，因此，对应流数据的DStream可

2017-09-19 23:41:29 1804

翻译 Spark RDD 持久化

Spark RDD 持久化注：该文档针对Spark2.1.0版本Spark最重要的一个功能是它可以通过各种操作（operations）持久化（或者缓存）一个集合到内存中。当你持久化一个RDD的时候，每一个节点都将参与计算的所有分区数据存储到内存中，并且这些数据可以被这个集合（以及这个集合衍生的其他集合）的动作（action）重复利用。这个能力使后续的动作速度更快（通常快10倍以上）。对应迭代算法和快

2017-09-15 18:02:37 596

翻译 Spark的广播变量和累加变量

通常情况下，当向Spark操作（比如map或者reduce）传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spark提供了两种有限类型的共享变量，广播变量和累加器。

2017-09-15 15:18:09 1228 1

转载 Scala Option(选项)

Scala Option(选项)Scala Option(选项)类型表示一个值得可选的(有值或者无值)。Option[T] 是一个类型为T的可选值得容器：如果值存在，Option[T]就是一个Some[T],如果不存在，Option[T]就是对象None。接下来看一段代码：val myMap:Map[Int,String] = Map(1 -> "tom")val v1:Option[String

2017-09-09 15:31:15 815

原创 Scala 高阶函数

Scala 高阶函数Scala混合了面向对象和函数式的特性。在函数式编程语言中，函数是“头等公民”，可以像任何其他数据类型一样被传递和操作。每当你想要给算法传入明细动作时这个特性就会变得非常有用。作为值的函数在Scala中，函数是“头等公民”，就和数字一样。你可以在变量中存放函数：import scala.math._val num = 3.14val fun = ceil _这段代码将num设为

2017-09-08 20:35:36 667

原创 apply方法和unapply方法

apply方法和unapply方法appply方法通常，在一个类的伴生对象中定义apply方法，在生成这个类的对象时，就省去了new关键字。请看下面代码：class Foo(foo:String){}object Foo{ def apply(foo:String) : Foo = { new Foo(foo) }}定义一个Foo类，并且在这个类中，有一个伴生对象Foo，里面定义了

2017-09-07 22:15:42 3036

原创 Hadoop InputFormat介绍

Hadoop InputFormat介绍1 概述我们在编写MapReduce程序的时候，在设置输入格式的时候，会调用如下代码：job.setInputFormatClass(KeyVakueTextInputFormat.class)通过上面的代码来保证输入的文件是按照我们想要的格式被读取，所有的输入格式都继承于InputFormat，这是一个抽象类，其子类有专门用于读取普通文件的FileInput

2017-09-02 14:00:34 3826

原创 FileStatus类介绍

FileStatus类介绍FileStatus对象封装了文件系统中文件和目录的元数据，包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。FileStatus对象一般由FileSystem的getFileStatus()方法获得，调用该方法的时候要把文件的Path传递进去。FileStatus字段解析private Path path; // Path路

2017-09-02 10:05:37 10304

转载 Kafka背景及架构介绍

Kafka背景及架构介绍Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。

2017-09-01 00:47:00 739

yanzhelee