自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

dgqg1223

一个程序老菜鸟的学习笔记

10月 08月 07月 06月 05月 04月 03月 02月

原创 SparkStreaming自定义数据源(即接收器)

自定义数据源(即接收器)实现接收sockey的接收器集成Receiver抽象类，具体使用细节可查看Receiver 代码中注释部分有详细说明onStart启动一个子线程来结束数据接收到的数据通过调用store(data)传递给其他执行器进行处理如果发生异常，会重启接收器（按照顺序调用onStop，onStart）onStop释放资源package com.chen.sparksteaming.apiimport java.io.{BufferedReader, Inp

2020-08-27 17:41:00 372

原创 SparkSql自定义强类型、弱类型聚合函数

自定义弱类型package com.chen.sparksql.funcimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{DataType, DoubleType, LongType, StructField, StructType}import org.apache.spark.sql.

2020-08-25 16:42:41 484

原创 Spark广播变量与累加器

累加器解决了在Driver端创建的变量在Task中修改但最终不会修改Driver端的变量（Task修改的只是副本，不会同步回Execute）解决了共享变量写的问题当需要一个累加变量时，再Driver 定义作为计数的变量，会复制到Executor中RDD执行时候通过代码对其进行累加，但是结果不会被收集回Driver中，使用累加器可以把Executor的变量值收集回Driver并进行累加注意：累加器再Driver端定义初始化。1.6版本在Excutor不能使用.value 获取累加器的值Demoi

2020-08-23 17:22:00 155

原创 Spark分区器：HashParititioner、RandPartitioner、自定义分区器

HashParititioner聚合算子默认分区器通过hash值分区RandPartitioner范围分区器排序类算子默认分区器使用水塘抽样算法（抽样概率相同），对数据进行抽样来划分数据边界数组：数组长度由分区数决定，通过水塘抽样计算出数据切分的范围存放在边界数组中源码：/*** A [[org.apache.spark.Partitioner]] that partitions sortable records by range into roughly* equal range

2020-08-20 18:13:36 295

原创 Spark 使用 Kyro 序列化

序列化解决Driver端创建的对象在Execute端传输问题方式一：使用Java Serializable接口【Spark默认】优点：简单，不需要额外的工作java自带，方便缺点：序列化速度慢序列化后size比较大hadoop中采取了自定义序列化 …Writable方式二： Kyro 第三方序列化【Spark支持】优点：序列化后的size 大概是Serializable 十分之一 val conf = new SparkConf().setAppName("Demo

2020-08-19 22:51:52 262

原创 scala之模式匹配

一句话解释类似java中switch ，比switch更强大，可以匹配类型基本使用格式：要匹配的值 match {case 选项 => 操作} val a = 10 val b = 20 val op: String = StdIn.readLine("请输入一个运算符：") val result:Int = op match { case "+" => a + b case "-" =>

2020-08-18 15:33:34 92

原创 scala之偏函数

一句话解释只对于偏爱的值进行处理，其他值不进行处理定义偏函数定义方式一【不推荐该方式】 val list1 = List(1, 2, 3, "a", true) // 实现 PartialFunction[输入类型，输出类型]{} val f = new PartialFunction[Any, Int] { // 只对返回true的时候交给apply处理 override def isDefinedAt(x: Any): Boolean = x.

2020-08-18 14:57:37 143

原创 Spark 基础知识点、三种模式安装

环境说明centos 7.5spark-2.1.1Spark 内置模块[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4F5IqC5c-1597227561772)(spark知识点/New Mockup 1.png)]Spark local 模式安装直接解压即可，无需配置（spark-2.1.1-bin-hadoop2.7.tgz 集成hadoop环境包）local 模式下测试# 提交任务使用spark案例计算pibin/spark-submit -

2020-08-12 18:20:17 450

原创 Hive函数Demo3：排序函数

/*数据集孙悟空语文 87孙悟空数学 95孙悟空英语 68大海语文 94大海数学 56大海英语 84宋宋语文 64宋宋数学 86宋宋英语 84婷婷语文 65婷婷数学 85婷婷英语 78*/-- 创建表create table score(name string,subject string,score int)row format delimited fields terminated by "\t";--导入数据load data

2020-08-07 23:01:00 132

原创 Hive函数之窗口（开窗）函数

官方介绍LanguageManual WindowingAndAnalytics一句话解释开窗作用使用开窗函数可以在一个select语句中且不使用子查询的情况下，显示同一指标不同维度的数据。（这么说虽然片面，但是便于理解，实际开窗函数的作用远远超出该描述，具体请看下面案例理解）开窗函数格式格式：over(partition by 要分组字段**,order by** 要排序的字段 window_clause)其中 partition by ，order by ，window_clause 均为可

2020-08-07 21:35:49 938

原创 Hive函数Demo2：字符串拼接函数、炸裂函数、侧写、行专列、列转行

/* 相关函数*/-- 拼接字符串，输入多个字符串select concat('a','b','c');-- 拼接字符串并指定分隔符select concat_ws(',','a','b','c');-- 炸裂函数拆分数组为一行多列 map为2行多列select explode(array('a','b','c'));-- 侧写用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias-- 解释用于和split, ex

2020-08-06 23:44:33 924

原创 Hive函数Demo1：基础常用函数

-- 查看说明desc function extended 函数名/**/。-- 返回时间戳select unix_timestamp();select unix_timestamp('2019-01-01 01:01:01');select unix_timestamp('20190101 010101','yyyyMMdd HHmmss');-- 时间戳转时间select from_unixtime(1546304461,'yyyy-MM-dd HH:mm:ss');-- 返回当

2020-08-06 19:48:26 134

原创 Hive自定义UDF&UDTF函数

pom.xml <properties> <project.build.sourceEncoding>UTF8</project.build.sourceEncoding> <hive.version>1.2.1</hive.version> </properties> <repositories> <repository>

2020-08-03 14:55:43 384

80x86汇编语言程序设计教程

80x86汇编语言程序设计教程系统安全必备滴水文档汇编文档

2019-01-16

myeclipse.10.0

myeclipse.10.0破解、操作简单；按照步骤；绝对可激活

2019-01-16

寺冈条码机驱动_UP46_UP462_UP463_GP-470

寺冈条码机驱动_UP46_UP462_UP463_GP-470 【简单介绍】基本参数打印方式：热敏、热转印打印分辨率： 203-300 接口： usb，并口支持网络打印：支持品牌：寺冈Teraoka 型号： GP-470 简单方便，实现功能多样，详情 Mr xian

2019-01-16

RealVNC(WinVNC)v5.3.1（带序列号）

RealVNC(WinVNC)是一套功能强大轻量型的远程控制计算机软件，通过VNC(Virtual Network Computing)帮助你可以使用另一台电脑桌面上的一个简单的客户端程序("VNC查看器")。支持跨平台进行一世相关的操作，例如，你可以使用VNC查看Windows桌面及Linux或在家里及办公室的Mac电脑。非常的简单，它更是一个Java的浏览器，可以远程控制及使任何桌面，而无需安装软件，所有的操作都在浏览器内完成。

2019-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除