- 博客(29)
- 收藏
- 关注
转载 Hive和SQL的窗口函数
分析窗口函数应用场景:(1.2重要,其他的了解就行)(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。数据准备...
2018-05-30 11:42:20 2838
转载 Scala中Json解析String,获得多级key
代码块导入包import scala.util.parsing.json._def main(args: Array[String]): Unit = { def regJson(json:Option[Any]) = json match { case Some(map: Map[String, Any]) => map// case None =>...
2018-05-29 21:47:09 3541
转载 SparkSQL中UDF和UDAF
UDF: User Defined Function,用户自定义的函数,函数的输入是一条具体的数据记录,实现上讲就是普通的Scala函数;UDAF:User Defined Aggregation Function,用户自定义的聚合函数,函数本身作用于数据集合,能够在聚合操作的基础上进行自定义操作;实质上讲,例如说UDF会被Spark SQL中的Catalyst封装成为Expression,最终会...
2018-05-29 19:43:00 420
转载 UUID 用法
UUID含义是通用唯一识别码 (Universally Unique Identifier),这是一个软件建构的标准. UUID 的目的,是让分布式系统中的所有元素,都能有唯一的辨识资讯,而不需要透过中央控制端来做辨识资讯的指定。如此一来,每个人都可以建立不与其它人冲突的 UUID。在这样的情况下,就不需考虑数据库建立时的名称重复问题。目前最广泛应用的 UUID,即是微软的 Micro...
2018-05-29 13:55:03 34155 1
转载 Spark的RDD操作之Join大全!
一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下:[plain] view plain copy/** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`...
2018-05-29 11:59:31 2301
原创 Spark RDD 整理
目录 Spark计算模型... 1 1. 课程目标... 1 1.1. 熟练使用RDD的算子完成计算... 1 1.2. 掌握RDD的原理... 1 2. 弹性分布式数据集RDD.. 1 2.1. RDD概述... 1 2.1.1. 什么是RDD.. 1 2.1.2. RDD的特性... 1...
2018-05-28 00:15:56 191
转载 sparkstreaming读取kafka的两种方式
spark streaming提供了两种获取方式,一种是同storm一样,实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是:Receiver-baseDirect一 、Receiver-base:Spark官方最先提供了基于Receiver的Kafka数据消费模式。不过这种方式是先把数据从kafka中读取出来,然后缓存在内存,再定时处理。如果这时候集群退出,而偏移量又没处理好的话,数据...
2018-05-24 15:55:35 618
转载 DataFrame和DataSet和RDD
简介:官网: DataFrames are just Dataset of Rows in Scala and Java API. These operations are also referred as “untyped transformations” in contrast to “typed transformations” come with strongly typed Scala/...
2018-05-24 11:11:16 375
转载 CSV
CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据,而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式)。因为大量程序都支持某种CSV变体,至少是作为一种可选择的输入/输出格式。例如,一个用户可能需要交换信息,从一个以私有格式存储数据的数据库程序,到一个数据格式完全不同的电子表格。最可能的情况是,该数据库程序可以导出数据...
2018-05-23 10:52:06 440
转载 ETL
ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设...
2018-05-22 20:03:55 95
转载 spark 多文件输出
MultipleOutputFormat allowing to write the output data to different output files. MultipleOutputFormat可以将相似的记录输出到相同的数据集。在写每条记录之前,MultipleOutputFormat将调用generateFileNameForKeyValue方法来确定需要写入的文件名。通常,我...
2018-05-20 15:57:05 1631
原创 spark数据缓存到内存中的方法
RDD.cache()一般用法: sc.textFile(" 路径").cache 数据就已经缓存到内存中,可以提高运算速度,当然要注意,我们的内存容量
2018-05-18 19:18:44 5979
原创 RDD 直接存入MySQL,以及直接读取MySQL中数据
在spark中,直接把RDD文件存到数据库中。 object IPLocation { //每个分区连接一次MySQL,并且存储数据。 val data2MySQL =(iterator: Iterator[(String, Int)]) => { var conn: Connection =null var ps :PreparedStatement = null //这...
2018-05-17 21:46:06 3332
转载 Scala中高级算子,combineByKey
为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...
2018-05-16 19:32:32 1096
转载 Scala泛型及限定
1 Scala泛型1.1 泛型函数 ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。[java] view plain copy /* * 泛型[],中括号F、S、T都表示运行时参数类型, * ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。 */ class Triple[F: ClassTag, S...
2018-05-15 22:25:38 1055
转载 java高级特性增强
目录java高级特性增强... 1Ø java多线程增强... 1.1. java多线程基本知识... 1.1.1. 进程介绍... 1.1.2. 线程介绍... 1.1.3. 多线程介绍... 2.1.4. 多线程运行的原理... 2.1.5. 实现线程的两种方式... 2.2. java同步关键词解释... 2.2.1. syn...
2018-05-14 11:32:10 479
转载 scala中常用的10个方法
操作 Scala 集合时,一般会进行两类操作:转换操作(transformation )和行动操作(actions)(有些人喜欢叫他为聚合操作)。第一种操作类型将集合转换为另一个集合,第二种操作类型返回某些类型的值。1、mapmap 是 Scala 集合最常用的一个函数。它的功能十分强大:[html] view plain copyvalnumbers= Seq(1,2,3,4,5,6) /...
2018-05-10 15:39:26 3052 1
转载 Hadoop中namenode和seconderynamenode 分离在不同的主机上
1、停止hadoopstop-all.sh 2、修改vim masters 文件 其实,master文件不决定哪个是namenode,而决定的是secondarynamenode(决定谁是namenode的关键配置是core-site.xml中的fs.default.name这个参数)。所以,这里直接写上作为secondnamenode的IP或机器名称(可以是集群中任一个datanode节点)就...
2018-05-10 13:22:00 1574
原创 scala 整理重点版
在scala中,变量方法函数都是对象,都可以调用方法在scala中,没有运算符,都是方法:1.+(2) 简写成 1+2 =3; 1.-(2) 简写成 1-2 =-11、定义变量var/val x={if (y>0) 1 else if (y<-2) -1 else 0} 这是块表达式,大括号可以省略2、循环for和while循环,for常用for循环语法结构:for...
2018-05-09 20:34:29 382
转载 kafka配置文件参数详解
kafka的配置分为 broker、producter、consumer三个不同的配置一 BROKER 的全局配置最为核心的三个配置 broker.id、log.dir、zookeeper.connect 。------------------------------------------- 系统 相关 -------------------------------------------##每...
2018-05-09 11:45:57 340
转载 kafka的文件存储机制
目录:1、Kafka是什么2、前言3、Kafka文件存储机制–实际运行效果4、总结————————————————————————————————–1、Kafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2...
2018-05-09 11:00:32 1012
转载 kafka常用命令
Kafka常用命令感觉最近有一阵子没有玩Kafka了,都有点生疏了,我们今天就来讲解如何使用命令操作Kafka:启动命令创建Topic查看Topic列表删除TopicProducer和Consumer 写入和消费数据其他命令根据前一篇如何在阿里云上构建Kafka系统,想必大家都已经知道了如何配置Kafka了,但是有了Kafka后应当如何进行下一步的操作呢?这便是本节的主要内容了。1. 启动命令启动...
2018-05-08 19:37:35 408
转载 kafka的知识总结
1、kafka是什么 类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 》Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是defaultPartition Utils.abs(key.hashCode) % numP...
2018-05-08 19:05:45 231
转载 HDFS的java操作
7. HDFS的java操作hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件7.1 搭建开发环境1、引入依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId&...
2018-05-08 15:51:41 377
转载 Java高级特性(动态代理和反射)
目录第4天java高级特性增强... 1Ø java多线程增强... 1.1. java多线程基本知识... 1.1.1. 进程介绍... 1.1.2. 线程介绍... 1.1.3. 多线程介绍... 2.1.4. 多线程运行的原理... 2.1.5. 实现线程的两种方式... 2.2. java同步关键词解释... 2.2.1. ...
2018-05-07 16:15:05 2139 2
转载 socket的代码实例
服务器端(ServiceServer):package cn.itcast.bigdata.socket;import java.net.InetSocketAddress;import java.net.ServerSocket;import java.net.Socket;public class ServiceServer { public static void main(String[]...
2018-05-03 20:17:02 325
转载 jar和 runnable jar 的区别以及导出jar包的详细过程
jar file是最普通的jar包,即平时我们工程中lib下面的jar包,该jar不能运行,即在打jar包的时候没有指定main函数所在的class(可能被打成jar包的所有class根本就没有main函数,只是普通的class类,没有main函数),即没有运行的入口(即main函数)。因此是不能运行的。而Runnable jar file,是可以执行的jar包,即在打jar包的时候指定了main...
2018-05-03 10:47:07 2113
转载 Zookeeper的API(Java入门)以及应用
如何使用Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,后面将会详细介绍 Zookeeper 能够解决的一些典型问题,这里先介绍一下,Zo...
2018-05-02 18:29:16 257
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人