- 博客(257)
- 资源 (2)
- 收藏
- 关注
原创 Spark会产生shuffle的算子
Spark会产生shuffle的算子 去重def distinct()def distinct(numPartitions: Int)聚合def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(part...
2018-11-12 21:05:00
4525
原创 Scala基础:闭包、柯里化、隐式转换和隐式参数
Scala基础:闭包、柯里化、隐式转换和隐式参数 闭包,和js中的闭包一样,返回值依赖于声明在函数外部的一个或多个变量,那么这个函数就是闭包函数。 val i: Int = 20 //函数func的方法体中使用了在func外部定义的变量 那func就是个闭包函数 val func = (x: Int) => ...
2018-10-17 19:59:00
252
原创 Scala基础:模式匹配和样例类
Scala基础:模式匹配和样例类 模式匹配package com.zy.scalaimport scala.util.Random/** * 模式匹配 */object CaseDemo { def main(args: Array[String]): Unit = { //匹配字符串 ...
2018-10-17 17:33:00
137
原创 Scala基础:面向对象之trait
Scala基础:面向对象之trait trait类似于java中的interface,但是有所不同Scala中的trait是一种特殊的概念;首先先将trait作为接口使用,此时的trait就与Java中的接口 (interface)非常类似;在trait中可以定义抽象方法,就像抽象类中的抽象方法一样,只要不给出方法的方法体即可;...
2018-10-15 20:27:00
258
原创 Scala基础:面向对象之对象和继承
Scala基础:面向对象之对象和继承 对象object 相当于 class 的单个实例,通常在里面放一些静态的 field 或者 method;在 Scala 中没有静态方法和静态字段,但是可以使用 object 这个语法结构来达到同样的目的。object 作用:1.存放工具方法和常量2.高效共享单个不可变的实例3.单例模式...
2018-10-15 18:15:00
216
原创 Scala基础:类和构造器
Scala基础:类和构造器 类package com.zy.scala.cls/** * 在 Scala 中,类并不用声明为 public 类型的。 * Scala 源文件中可以包含多个类,所有这些类都具有共有可见性。 */class Person { //用 val 修饰的变量是可读属性,有 gette...
2018-10-15 10:37:00
174
原创 Scala基础:数组(Array)、映射(Map)、元组(Tuple)、集合(List)
Scala基础:数组(Array)、映射(Map)、元组(Tuple)、集合(List) 数组package com.zy.scalaobject ArrayDemo { def main(args: Array[String]): Unit = { //定长数组 val arr1 = new Array[...
2018-10-07 11:45:00
512
原创 Scala基础:定义变量和逻辑判断语句以及方法和函数
Scala基础:定义变量和逻辑判断语句以及方法和函数 定义变量和逻辑判断语句package com.zy.scalaimport scala.collection.immutableobject ScalaDemo { def main(args: Array[String]): Unit = { //定义...
2018-10-03 11:41:00
249
原创 二维码生成插件qrious及网站扫码登录的一些理解
二维码生成插件qrious及网站扫码登录的一些理解 什么是二维码 二维码又称QR Code,QR全称Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的Bar Code条形码能存更多的信息,也能表示更多的数据类型。 二维条码/二维码(2-dimensional bar code)是用某种特定的几何图...
2018-09-07 17:41:00
228
原创 Python基础:面向对象基础(二) 继承
Python基础:面向对象基础(二) 继承 子类在继承的时候,在定义类时,小括号()中为父类的名字,父类的属性、方法,会被继承给子类,Python中允许多继承。多继承# 父类 Masterclass Master(object): def __init__(self): self.kongfu = "...
2018-08-26 20:30:00
160
原创 Python基础:面向对象基础 (一) 类及其属性和魔法方法
Python基础:面向对象基础 (一) 类及其属性和魔法方法 定义类,添加和获取对象属性# 定义类 格式如下# class 类名:# 方法列表# 新式类定义形式# info 是一个实例方法,第一个参数一般是self,表示实例对象本身class Hero(object): """info 是一个实例方...
2018-08-20 19:33:00
210
原创 Python基础:文件的基本操作
Python基础:文件的基本操作 # 打开文件(如果不存在则新建) 向其中写入f = open('D:\\test.txt', 'w')f.write('hello world, i am here!')f.close()print("-" * 30) # 分割线# 读取文件f = open('D:\\test.t...
2018-08-15 20:11:00
344
原创 Python基础:函数的介绍及应用
Python基础:函数的介绍及应用 # 函数的定义def firstFun(): print("----------------------") print("剑来") print("----------------------")# 函数的嵌套def secondFun(): pri...
2018-08-12 21:27:00
157
原创 Python基础:列表,元组和字典的基本操作
Python基础:列表,元组和字典的基本操作 列表(集合list)的基本操作:# 列表的常见操作nameList = ["张学友", "刘德华", "郭富城", "黎明"]# 循环列表for name in nameList: print(name)print("**************************...
2018-08-10 09:23:00
171
原创 Python基础:字符串的常见操作
Python基础:字符串的常见操作 # 切片# 切片 获取对象中一部分数据 [起始位置:结束位置(不包含):步长]qpstr = "山东张学友"result = qpstr[1: 3: 1] # 东张print(result)# 快速取前两个result = qpstr[:2]print(result)# 快速...
2018-08-01 17:15:00
312
原创 Python基础:Python数据类型及逻辑判断语句
Python基础:Python数据类型及逻辑判断语句 Python代码需要严谨的缩进# 导包import random# ********************输入输出*****************# 输出print("hello world")# 输入# input("请输入:")# 随机数p...
2018-07-31 18:31:00
187
原创 Apache Hive (七)Hive的DDL操作
Apache Hive (七)Hive的DDL操作 转自:https://www.cnblogs.com/qingyunzong/p/8723271.html库操作1、创建库语法结构CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT databas...
2018-06-11 19:07:00
336
原创 Apache Hive (六)Hive SQL之数据类型和存储格式
Apache Hive (六)Hive SQL之数据类型和存储格式 转自:https://www.cnblogs.com/qingyunzong/p/8733924.html一、数据类型1、基本数据类型Hive 支持关系型数据中大多数基本数据类型类型描述示例booleantrue/falseTRU...
2018-06-10 20:05:00
92
原创 Apache Hive (五)DbVisualizer配置连接hive
Apache Hive (五)DbVisualizer配置连接hive 转自:https://www.cnblogs.com/qingyunzong/p/8715250.html一、安装DbVisualizer下载地址http://www.dbvis.com/也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1....
2018-06-10 15:03:00
188
原创 Apache Hive (四)Hive的连接3种连接方式
Apache Hive (四)Hive的连接3种连接方式 转自:https://www.cnblogs.com/qingyunzong/p/8715925.html一、CLI连接进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hiveSLF4J: Class path contains multi...
2018-06-08 18:01:00
337
原创 Apache Hive (三)Hive元数据信息对应MySQL数据库表
Apache Hive (三)Hive元数据信息对应MySQL数据库表 转自:https://www.cnblogs.com/qingyunzong/p/8710356.html概述Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。...
2018-06-08 16:56:00
175
原创 Apache Hive (二)Hive安装
Apache Hive (二)Hive安装 转自:https://www.cnblogs.com/qingyunzong/p/8708057.htmlHive的下载下载地址http://mirrors.hust.edu.cn/apache/选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2....
2018-06-08 10:55:00
510
原创 Apache Hive (一)Hive初识
Apache Hive (一)Hive初识 转自:https://www.cnblogs.com/qingyunzong/p/8707885.htmlHive 简介什么是Hive1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供...
2018-06-08 10:54:00
140
原创 C#使用NPOI导出excel设置单元格背景颜色
C#使用NPOI导出excel设置单元格背景颜色 ICellStyle cellStyle = workbook.CreateCellStyle();cellStyle.FillPattern = FillPattern.SolidForeground;cellStyle.FillForegroundColor = 47;cell....
2018-06-03 15:24:00
6538
原创 Spark之 Spark Streaming整合kafka(并演示reduceByKeyAndWindow、updateStateByKey算子使用)...
Spark之 Spark Streaming整合kafka(并演示reduceByKeyAndWindow、updateStateByKey算子使用) Kafka0.8版本基于receiver接受器去接受kafka topic中的数据(并演示reduceByKeyAndWindow的使用)依赖<dependency>...
2018-04-07 20:21:00
307
原创 Spark之 Spark Streaming流式处理
Spark之 Spark Streaming流式处理 SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单...
2018-04-05 18:55:00
571
原创 Apache Flume的介绍安装及简单案例
Apache Flume的介绍安装及简单案例 概述 Flume 是 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目...
2018-03-22 16:17:00
133
原创 Kafka如何保证数据不丢失
Kafka如何保证数据不丢失 Kafka如何保证数据不丢失1.生产者数据的不丢失kafka的ack机制:在kafka发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到,其中状态有0,1,-1。如果是同步模式:ack机制能够保证数据的不丢失,如果ack设置为0,风险很大,一般不建议设置为0。即使设置为1,也会...
2018-03-15 20:03:00
2882
原创 Kafka总结的一张图
Kafka总结的一张图 posted @ 2018-03-13 14:32 青衫仗剑 阅读(...) 评论(...) 编辑 收藏
2018-03-13 14:32:00
634
原创 Kafka存储机制(转)
Kafka存储机制(转) 转自:https://www.cnblogs.com/jun1019/p/6256514.htmlKafka存储机制同一个topic下有多个不同的partition,每个partition为一个目录,partition命名的规则是topic的名称加上一个序号,序号从0开始。每一个partitio...
2018-03-11 17:02:00
1716
3
原创 Kafka核心概念(转)
Kafka核心概念(转) 转自:https://blog.csdn.net/liyiming2017/article/details/828054791、Kafka集群结构实际上kafka的结构图是有些区别的,现在我们看下面的图:producer和consumer想必大家都很熟悉,一个生产消息,一个消费掉消息。这里就不再做太多解...
2018-03-10 19:05:00
681
原创 Kafka介绍及集群搭建
Kafka介绍及集群搭建 简介 Kafka是一个开源的,分布式的,高吞吐量的消息系统。随着Kafka的版本迭代,日趋成熟。大家对它的使用也逐步从日志系统衍生到其他关键业务领域。特别是其超高吞吐量的特性,在互联网领域,使用越来越广泛,生态系统也越来的完善。同时,其设计思路也是其他消息中间件重要的设计参考。 Kafka原先的开发初衷是构建一...
2018-03-10 16:50:00
89
原创 Spark之 使用SparkSql操作mysql和DataFrame的Scala实现
Spark之 使用SparkSql操作mysql和DataFrame的Scala实现 通过读取文件转换成DataFrame数据写入到mysql中package com.zy.sparksqlimport java.util.Propertiesimport org.apache.spark.SparkContextimp...
2018-02-18 22:07:00
854
原创 Spark之 SparkSql整合hive
Spark之 SparkSql整合hive 整合:1,需要将hive-site.xml文件拷贝到Spark的conf目录下,这样就可以通过这个配置文件找到Hive的元数据以及数据存放位置。2,如果Hive的元数据存放在Mysql中,我们还需要准备好Mysql相关驱动,比如:mysql-connector-java-5.1.35.jar。...
2018-02-18 21:35:00
349
原创 Spark之 使用SparkSql操作Hive的Scala程序实现
Spark之 使用SparkSql操作Hive的Scala程序实现 依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> ...
2018-02-18 21:21:00
1704
原创 Spark之 RDD转换成DataFrame的Scala实现
Spark之 RDD转换成DataFrame的Scala实现 依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <...
2018-02-18 20:58:00
233
原创 Spark之 SparkSql、DataFrame、DataSet介绍
Spark之 SparkSql、DataFrame、DataSet介绍 SparkSql SparkSql是专门为spark设计的一个大数据仓库工具,就好比hive是专门为hadoop设计的一个大数据仓库工具一样。特性:1、易整合 可以将sql查询与spark应用程序进行无缝混合使用,同时可以使用java、scala、...
2018-02-15 16:53:00
288
原创 Spark之 RDD
Spark之 RDD 简介RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Resilient:弹性,它表示的含义rdd的数据是可以保存在内存中或者是磁盘中。 Distributed:它的数据是分布式存储的,后期方...
2018-02-15 16:18:00
222
原创 Spark scala和java的api使用
Spark scala和java的api使用 1、利用scala语言开发spark的worcount程序(本地运行)package com.zy.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//...
2018-02-12 13:22:00
510
原创 Spark角色介绍及spark-shell的基本使用
Spark角色介绍及spark-shell的基本使用 Spark角色介绍 1、Driver它会运行客户端的main方法,构建了SparkContext对象,它是所有spark程序的入口2、Application它就是一个应用程序,包括了Driver端的代码和当前这个任务在运行的时候需要...
2018-02-10 18:08:00
246
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅