2018年05月_huangyinzhao

转载 Hive和SQL的窗口函数

分析窗口函数应用场景：（1.2重要，其他的了解就行）（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。数据准备...

2018-05-30 11:42:20 2838

转载 Scala中Json解析String，获得多级key

代码块导入包import scala.util.parsing.json._def main(args: Array[String]): Unit = { def regJson(json:Option[Any]) = json match { case Some(map: Map[String, Any]) => map// case None =>...

2018-05-29 21:47:09 3541

转载 SparkSQL中UDF和UDAF

UDF: User Defined Function，用户自定义的函数，函数的输入是一条具体的数据记录，实现上讲就是普通的Scala函数；UDAF：User Defined Aggregation Function，用户自定义的聚合函数，函数本身作用于数据集合，能够在聚合操作的基础上进行自定义操作；实质上讲，例如说UDF会被Spark SQL中的Catalyst封装成为Expression，最终会...

2018-05-29 19:43:00 420

转载 UUID 用法

UUID含义是通用唯一识别码 (Universally Unique Identifier)，这是一个软件建构的标准. UUID 的目的，是让分布式系统中的所有元素，都能有唯一的辨识资讯，而不需要透过中央控制端来做辨识资讯的指定。如此一来，每个人都可以建立不与其它人冲突的 UUID。在这样的情况下，就不需考虑数据库建立时的名称重复问题。目前最广泛应用的 UUID，即是微软的 Micro...

2018-05-29 13:55:03 34155 1

转载 Spark的RDD操作之Join大全！

一、RDD的Join操作有哪些？（一）Join：Join类似于SQL的inner join操作，返回结果是前面和后面集合中配对成功的，过滤掉关联不上的。源代码如下：[plain] view plain copy/** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`...

2018-05-29 11:59:31 2301

原创 Spark RDD 整理

目录 Spark计算模型... 1 1. 课程目标... 1 1.1. 熟练使用RDD的算子完成计算... 1 1.2. 掌握RDD的原理... 1 2. 弹性分布式数据集RDD.. 1 2.1. RDD概述... 1 2.1.1. 什么是RDD.. 1 2.1.2. RDD的特性... 1...

2018-05-28 00:15:56 191

转载 sparkstreaming读取kafka的两种方式

spark streaming提供了两种获取方式，一种是同storm一样，实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是：Receiver-baseDirect一、Receiver-base：Spark官方最先提供了基于Receiver的Kafka数据消费模式。不过这种方式是先把数据从kafka中读取出来，然后缓存在内存，再定时处理。如果这时候集群退出，而偏移量又没处理好的话，数据...

2018-05-24 15:55:35 618

转载 DataFrame和DataSet和RDD

简介：官网： DataFrames are just Dataset of Rows in Scala and Java API. These operations are also referred as “untyped transformations” in contrast to “typed transformations” come with strongly typed Scala/...

2018-05-24 11:11:16 375

转载 CSV

CSV是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据，而这些程序本身是在不兼容的格式上进行操作的（往往是私有的和/或无规范的格式）。因为大量程序都支持某种CSV变体，至少是作为一种可选择的输入/输出格式。例如，一个用户可能需要交换信息，从一个以私有格式存储数据的数据库程序，到一个数据格式完全不同的电子表格。最可能的情况是，该数据库程序可以导出数据...

2018-05-23 10:52:06 440

转载 ETL

ETL讲解（很详细！！！） ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设...

2018-05-22 20:03:55 95

转载 spark 多文件输出

　MultipleOutputFormat allowing to write the output data to different output files. MultipleOutputFormat可以将相似的记录输出到相同的数据集。在写每条记录之前，MultipleOutputFormat将调用generateFileNameForKeyValue方法来确定需要写入的文件名。通常，我...

2018-05-20 15:57:05 1631

原创 spark数据缓存到内存中的方法

RDD.cache()一般用法： sc.textFile(" 路径").cache 数据就已经缓存到内存中，可以提高运算速度，当然要注意，我们的内存容量

2018-05-18 19:18:44 5979

转载 spark中wordcount执行的数据流向

2018-05-18 13:42:41 258

原创 RDD 直接存入MySQL，以及直接读取MySQL中数据

在spark中，直接把RDD文件存到数据库中。 object IPLocation { //每个分区连接一次MySQL，并且存储数据。 val data2MySQL =(iterator: Iterator[(String, Int)]) => { var conn: Connection =null var ps :PreparedStatement = null //这...

2018-05-17 21:46:06 3332

转载 Scala中高级算子，combineByKey

为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义，其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...

2018-05-16 19:32:32 1096

转载 Scala泛型及限定

1 Scala泛型1.1 泛型函数 ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。[java] view plain copy /* * 泛型[]，中括号F、S、T都表示运行时参数类型， * ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。 */ class Triple[F: ClassTag, S...

2018-05-15 22:25:38 1055

转载 java高级特性增强

目录java高级特性增强... 1Ø java多线程增强... 1.1. java多线程基本知识... 1.1.1. 进程介绍... 1.1.2. 线程介绍... 1.1.3. 多线程介绍... 2.1.4. 多线程运行的原理... 2.1.5. 实现线程的两种方式... 2.2. java同步关键词解释... 2.2.1. syn...

2018-05-14 11:32:10 479

转载 scala中常用的10个方法

操作 Scala 集合时，一般会进行两类操作：转换操作（transformation ）和行动操作（actions）（有些人喜欢叫他为聚合操作）。第一种操作类型将集合转换为另一个集合，第二种操作类型返回某些类型的值。1、mapmap 是 Scala 集合最常用的一个函数。它的功能十分强大：[html] view plain copyvalnumbers= Seq(1,2,3,4,5,6) /...

2018-05-10 15:39:26 3052 1

转载 Hadoop中namenode和seconderynamenode 分离在不同的主机上

1、停止hadoopstop-all.sh 2、修改vim masters 文件其实，master文件不决定哪个是namenode，而决定的是secondarynamenode（决定谁是namenode的关键配置是core-site.xml中的fs.default.name这个参数）。所以，这里直接写上作为secondnamenode的IP或机器名称（可以是集群中任一个datanode节点）就...

2018-05-10 13:22:00 1574

原创 scala 整理重点版

在scala中，变量方法函数都是对象，都可以调用方法在scala中，没有运算符，都是方法：1.+（2）简写成 1+2 =3； 1.-（2）简写成 1-2 =-11、定义变量var/val x={if (y>0) 1 else if (y<-2) -1 else 0} 这是块表达式，大括号可以省略2、循环for和while循环，for常用for循环语法结构：for...

2018-05-09 20:34:29 382

转载 kafka配置文件参数详解

kafka的配置分为 broker、producter、consumer三个不同的配置一 BROKER 的全局配置最为核心的三个配置 broker.id、log.dir、zookeeper.connect 。------------------------------------------- 系统相关 -------------------------------------------##每...

2018-05-09 11:45:57 340

转载 kafka的文件存储机制

目录：1、Kafka是什么2、前言3、Kafka文件存储机制–实际运行效果4、总结————————————————————————————————–1、Kafka是什么Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2...

2018-05-09 11:00:32 1012

转载 kafka常用命令

Kafka常用命令感觉最近有一阵子没有玩Kafka了，都有点生疏了，我们今天就来讲解如何使用命令操作Kafka：启动命令创建Topic查看Topic列表删除TopicProducer和Consumer 写入和消费数据其他命令根据前一篇如何在阿里云上构建Kafka系统，想必大家都已经知道了如何配置Kafka了，但是有了Kafka后应当如何进行下一步的操作呢？这便是本节的主要内容了。1. 启动命令启动...

2018-05-08 19:37:35 408

转载 kafka的知识总结

1、kafka是什么类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。》Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。数据的分发策略由producer决定，默认是defaultPartition Utils.abs(key.hashCode) % numP...

2018-05-08 19:05:45 231

转载 HDFS的java操作

7. HDFS的java操作hdfs在生产应用中主要是客户端的开发，其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象，然后通过该客户端对象操作（增删改查）HDFS上的文件7.1 搭建开发环境1、引入依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId&...

2018-05-08 15:51:41 377

转载 Java高级特性（动态代理和反射）

目录第4天java高级特性增强... 1Ø java多线程增强... 1.1. java多线程基本知识... 1.1.1. 进程介绍... 1.1.2. 线程介绍... 1.1.3. 多线程介绍... 2.1.4. 多线程运行的原理... 2.1.5. 实现线程的两种方式... 2.2. java同步关键词解释... 2.2.1. ...

2018-05-07 16:15:05 2139 2

转载 socket的代码实例

服务器端（ServiceServer）：package cn.itcast.bigdata.socket;import java.net.InetSocketAddress;import java.net.ServerSocket;import java.net.Socket;public class ServiceServer { public static void main(String[]...

2018-05-03 20:17:02 325

转载 jar和 runnable jar 的区别以及导出jar包的详细过程

jar file是最普通的jar包，即平时我们工程中lib下面的jar包，该jar不能运行，即在打jar包的时候没有指定main函数所在的class（可能被打成jar包的所有class根本就没有main函数，只是普通的class类，没有main函数），即没有运行的入口（即main函数）。因此是不能运行的。而Runnable jar file，是可以执行的jar包，即在打jar包的时候指定了main...

2018-05-03 10:47:07 2113

转载 Zookeeper的API（Java入门）以及应用

如何使用Zookeeper 作为一个分布式的服务框架，主要用来解决分布式集群中应用系统的一致性问题，它能提供基于类似于文件系统的目录节点树方式的数据存储，但是 Zookeeper 并不是用来专门存储数据的，它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理，后面将会详细介绍 Zookeeper 能够解决的一些典型问题，这里先介绍一下，Zo...

2018-05-02 18:29:16 257

huangyinzhao的博客