自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

转载 Hive和SQL的窗口函数

分析窗口函数应用场景:(1.2重要,其他的了解就行)(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。数据准备...

2018-05-30 11:42:20 2838

转载 Scala中Json解析String,获得多级key

代码块导入包import scala.util.parsing.json._def main(args: Array[String]): Unit = { def regJson(json:Option[Any]) = json match { case Some(map: Map[String, Any]) => map// case None =>...

2018-05-29 21:47:09 3541

转载 SparkSQL中UDF和UDAF

UDF: User Defined Function,用户自定义的函数,函数的输入是一条具体的数据记录,实现上讲就是普通的Scala函数;UDAF:User Defined Aggregation Function,用户自定义的聚合函数,函数本身作用于数据集合,能够在聚合操作的基础上进行自定义操作;实质上讲,例如说UDF会被Spark SQL中的Catalyst封装成为Expression,最终会...

2018-05-29 19:43:00 420

转载 UUID 用法

UUID含义是通用唯一识别码 (Universally Unique Identifier),这是一个软件建构的标准.       UUID 的目的,是让分布式系统中的所有元素,都能有唯一的辨识资讯,而不需要透过中央控制端来做辨识资讯的指定。如此一来,每个人都可以建立不与其它人冲突的 UUID。在这样的情况下,就不需考虑数据库建立时的名称重复问题。目前最广泛应用的 UUID,即是微软的 Micro...

2018-05-29 13:55:03 34155 1

转载 Spark的RDD操作之Join大全!

一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下:[plain] view plain copy/**   * Return an RDD containing all pairs of elements with matching keys in `this` and `other`...

2018-05-29 11:59:31 2301

原创 Spark RDD 整理

目录 Spark计算模型... 1 1.      课程目标... 1 1.1.           熟练使用RDD的算子完成计算... 1 1.2.           掌握RDD的原理... 1 2.      弹性分布式数据集RDD.. 1 2.1.           RDD概述... 1 2.1.1.        什么是RDD.. 1 2.1.2.        RDD的特性... 1...

2018-05-28 00:15:56 191

转载 sparkstreaming读取kafka的两种方式

spark streaming提供了两种获取方式,一种是同storm一样,实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是:Receiver-baseDirect一 、Receiver-base:Spark官方最先提供了基于Receiver的Kafka数据消费模式。不过这种方式是先把数据从kafka中读取出来,然后缓存在内存,再定时处理。如果这时候集群退出,而偏移量又没处理好的话,数据...

2018-05-24 15:55:35 618

转载 DataFrame和DataSet和RDD

简介:官网: DataFrames are just Dataset of Rows in Scala and Java API. These operations are also referred as “untyped transformations” in contrast to “typed transformations” come with strongly typed Scala/...

2018-05-24 11:11:16 375

转载 CSV

CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据,而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式)。因为大量程序都支持某种CSV变体,至少是作为一种可选择的输入/输出格式。例如,一个用户可能需要交换信息,从一个以私有格式存储数据的数据库程序,到一个数据格式完全不同的电子表格。最可能的情况是,该数据库程序可以导出数据...

2018-05-23 10:52:06 440

转载 ETL

ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。         ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设...

2018-05-22 20:03:55 95

转载 spark 多文件输出

 MultipleOutputFormat allowing to write the output data to different output files.   MultipleOutputFormat可以将相似的记录输出到相同的数据集。在写每条记录之前,MultipleOutputFormat将调用generateFileNameForKeyValue方法来确定需要写入的文件名。通常,我...

2018-05-20 15:57:05 1631

原创 spark数据缓存到内存中的方法

RDD.cache()一般用法: sc.textFile(" 路径").cache    数据就已经缓存到内存中,可以提高运算速度,当然要注意,我们的内存容量

2018-05-18 19:18:44 5979

转载 spark中wordcount执行的数据流向

2018-05-18 13:42:41 258

原创 RDD 直接存入MySQL,以及直接读取MySQL中数据

在spark中,直接把RDD文件存到数据库中。 object IPLocation {  //每个分区连接一次MySQL,并且存储数据。  val data2MySQL =(iterator: Iterator[(String, Int)]) => {    var conn: Connection =null    var ps :PreparedStatement = null  //这...

2018-05-17 21:46:06 3332

转载 Scala中高级算子,combineByKey

为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...

2018-05-16 19:32:32 1096

转载 Scala泛型及限定

1 Scala泛型1.1 泛型函数   ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。[java] view plain copy    /*      *  泛型[],中括号F、S、T都表示运行时参数类型,      * ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。      */      class Triple[F: ClassTag, S...

2018-05-15 22:25:38 1055

转载 java高级特性增强

目录java高级特性增强... 1Ø    java多线程增强... 1.1.       java多线程基本知识... 1.1.1.    进程介绍... 1.1.2.    线程介绍... 1.1.3.    多线程介绍... 2.1.4.    多线程运行的原理... 2.1.5.    实现线程的两种方式... 2.2.       java同步关键词解释... 2.2.1.    syn...

2018-05-14 11:32:10 479

转载 scala中常用的10个方法

 操作 Scala 集合时,一般会进行两类操作:转换操作(transformation )和行动操作(actions)(有些人喜欢叫他为聚合操作)。第一种操作类型将集合转换为另一个集合,第二种操作类型返回某些类型的值。1、mapmap 是 Scala 集合最常用的一个函数。它的功能十分强大:[html] view plain copyvalnumbers= Seq(1,2,3,4,5,6)   /...

2018-05-10 15:39:26 3052 1

转载 Hadoop中namenode和seconderynamenode 分离在不同的主机上

1、停止hadoopstop-all.sh  2、修改vim masters 文件 其实,master文件不决定哪个是namenode,而决定的是secondarynamenode(决定谁是namenode的关键配置是core-site.xml中的fs.default.name这个参数)。所以,这里直接写上作为secondnamenode的IP或机器名称(可以是集群中任一个datanode节点)就...

2018-05-10 13:22:00 1574

原创 scala 整理重点版

在scala中,变量方法函数都是对象,都可以调用方法在scala中,没有运算符,都是方法:1.+(2)  简写成   1+2 =3; 1.-(2)  简写成   1-2 =-11、定义变量var/val  x={if (y>0) 1 else if (y<-2) -1 else 0}    这是块表达式,大括号可以省略2、循环for和while循环,for常用for循环语法结构:for...

2018-05-09 20:34:29 382

转载 kafka配置文件参数详解

kafka的配置分为 broker、producter、consumer三个不同的配置一 BROKER 的全局配置最为核心的三个配置 broker.id、log.dir、zookeeper.connect 。------------------------------------------- 系统 相关 -------------------------------------------##每...

2018-05-09 11:45:57 340

转载 kafka的文件存储机制

目录:1、Kafka是什么2、前言3、Kafka文件存储机制–实际运行效果4、总结————————————————————————————————–1、Kafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2...

2018-05-09 11:00:32 1012

转载 kafka常用命令

Kafka常用命令感觉最近有一阵子没有玩Kafka了,都有点生疏了,我们今天就来讲解如何使用命令操作Kafka:启动命令创建Topic查看Topic列表删除TopicProducer和Consumer 写入和消费数据其他命令根据前一篇如何在阿里云上构建Kafka系统,想必大家都已经知道了如何配置Kafka了,但是有了Kafka后应当如何进行下一步的操作呢?这便是本节的主要内容了。1. 启动命令启动...

2018-05-08 19:37:35 408

转载 kafka的知识总结

1、kafka是什么 类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。  》Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是defaultPartition  Utils.abs(key.hashCode) % numP...

2018-05-08 19:05:45 231

转载 HDFS的java操作

7. HDFS的java操作hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件7.1 搭建开发环境1、引入依赖<dependency>    <groupId>org.apache.hadoop</groupId>    <artifactId&...

2018-05-08 15:51:41 377

转载 Java高级特性(动态代理和反射)

目录第4天java高级特性增强... 1Ø    java多线程增强... 1.1.       java多线程基本知识... 1.1.1.    进程介绍... 1.1.2.    线程介绍... 1.1.3.    多线程介绍... 2.1.4.    多线程运行的原理... 2.1.5.    实现线程的两种方式... 2.2.       java同步关键词解释... 2.2.1.    ...

2018-05-07 16:15:05 2139 2

转载 socket的代码实例

服务器端(ServiceServer):package cn.itcast.bigdata.socket;import java.net.InetSocketAddress;import java.net.ServerSocket;import java.net.Socket;public class ServiceServer { public static void main(String[]...

2018-05-03 20:17:02 325

转载 jar和 runnable jar 的区别以及导出jar包的详细过程

jar file是最普通的jar包,即平时我们工程中lib下面的jar包,该jar不能运行,即在打jar包的时候没有指定main函数所在的class(可能被打成jar包的所有class根本就没有main函数,只是普通的class类,没有main函数),即没有运行的入口(即main函数)。因此是不能运行的。而Runnable jar file,是可以执行的jar包,即在打jar包的时候指定了main...

2018-05-03 10:47:07 2113

转载 Zookeeper的API(Java入门)以及应用

如何使用Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,后面将会详细介绍 Zookeeper 能够解决的一些典型问题,这里先介绍一下,Zo...

2018-05-02 18:29:16 257

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除