自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

转载 spark算子之Aggregate

Aggregate函数一、源码定义/** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This functi...

2019-08-31 01:17:00 292

转载 java.lang.SecurityException: class "javax.servlet.ServletRegistration"'s signer information does not...

报错信息:报错截图:解决方案:因为本人是sbt项目,所以添加一下依赖之后解决:如果是maven项目的话,添加依赖到pom文件中然后在重新build,之后就可以了转载于:https://www.cnblogs.com/Gxiaobai/p/11415900.html...

2019-08-27 00:35:00 308

转载 Hive SQL之分区表与分桶表

  Hive sql是Hive 用户使用Hive的主要工具。Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同。Hive SQL和Mysql的SQL方言最为接近,但是两者之间也存在着显著的差异,比如Hive不支持行级数据的插入、更新和删除,也不支持事务操作。  注: HIVE 2.*版本之后开始支持事务功能,以及对单条数据的插入更新等操作Hive的相关...

2019-08-18 11:57:00 293

转载 hive之基本架构

什么是Hive  hive是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员是用他们最为熟悉的SQL语言就可以进行海量的数据的处理、分析和统计工作,而不是必须掌握JAVA等变成语言和具备开发MapReduce程序的能力。Hive SQL实际上是先被SQL解析器进行解析然后被Hive框架解析成一个MapReduce可执行的计划,并且按照该计划生成MapReduce任务后交...

2019-08-17 23:42:00 177

转载 数据结构-链表(2)

双向链表上文中详解了单向链表, 本节主要针对双向链表的原理、优缺点以及各个操作进行讲解。双向链表对于单项链表来说,它支持两个方向,每个结点不止有一个后继指针next指向后面的结点,而且还有一个前驱指针prev指向前面的结点,结合图来看看:从图中可以看出,双向链表需要额外的两个空间来存储后继结点和前驱节点的地址。所以存储同样的数据,双向链表要比单向链表占用更多的空间。...

2019-08-17 12:05:00 144

转载 数据结构-数组

  一、数组的概念  定义:数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。  从概念中可以知道一下几点:数组是线性表。    所谓的线性表就是数据排成一排,想一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。当然除了数组,链表、队列、栈等也是线性表结构      连续的内存空间和形同类型的数据...

2019-08-13 00:33:00 120

转载 数据结构-链表(1)

链表是一种用于存储数据集合的数据结构。链表有以下几个属性:相邻元素之间通过指针进行连接最后一个元素的后继指针值为NULL在程序执行的过程中,链表的长度可以增加或缩小链表的空间能够按需分配(直到系统内存耗尽)没有内存空间的浪费(但是链表中的指针需要一些额外的内存开销)  一、链表的分类  链表大致可以分为这么几类:单向链表双向链表...

2019-08-10 15:43:00 217

转载 shell脚本之用户管理

#!/usr/bin/env bash################################ 脚本名称 : userManager.sh ## 脚本功能 : 账号管理 ## 脚本参数 : 无 ## 创建时间 : 2019-07-25 # # 作 者 : Mr.Guo ...

2019-07-27 23:25:00 192

转载 spark编写UDF和UDAF

UDF:一、编写udf类,在其中定义udf函数package spark._sql.UDFimport org.apache.spark.sql.functions._/** * AUTHOR Guozy * DATE 2019/7/18-9:41 **/object udfs { def len(str: String): I...

2019-07-21 00:35:00 172

转载 spark-sql中的分析函数的使用

分析函数的应用场景:  (1)用于分组后组内排序  (2)指定计算范围  (3)Top N  (4)累加计算  (5)层次计算分析函数的一般语法:  分析函数的语法结构一般是:  分析函数名(参数) over (子partition by 句 order by 字句 rows/range 字句)  1、分析函数名:sum、max、min、coun...

2019-07-20 15:46:00 318

转载 shell脚本中关于日期的操作

一、计算指定日期的前一天的日期  date -d "yesterday 20150401 " +%Y%m%d二、如果获取当前日期的前一天 date -d "yesterday" +%Y%m%d三、计算指定日期的前几天(例如计算20190716的前10天),如果是负数的话,则会往前数  date -d "10 day ago 20190716" +%Y%m%...

2019-07-16 21:39:00 278

转载 spark运行任务报错:Container [...] is running beyond physical memory limits. Current usage: 3.0 GB of 3 GB ...

spark版本:1.6.0scala版本:2.10报错日志:Application application_1562341921664_2123 failed 2 times due to AM Container for appattempt_1562341921664_2123_000002 exited with exitCode: -104For more d...

2019-07-10 22:19:00 1178

转载 spark自定义分区器实现

在spark中,框架默认使用的事hashPartitioner分区器进行对rdd分区,但是实际生产中,往往使用spark自带的分区器会产生数据倾斜等原因,这个时候就需要我们自定义分区,按照我们指定的字段进行分区。具体的流程步骤如下:1、创建一个自定义的分区类,并继承Partitioner,注意这个partitioner是spark的partitioner2、重写partition...

2019-06-23 17:06:00 287

转载 IDEA使用maven插件打jar包流程

idea使用maven插件打jar包步骤以及遇到的问题  idea自带了maven工具,idea右边点击maven选项:  一、在pom中添加插件,直接复制就好,如下选项 <plugin> <artifactId>maven-assembly-plugin</artifactId>...

2019-06-01 18:56:00 259

转载 scala中的闭包

scala闭包代码示例:package test.close_packimport scala.collection.mutable.ArrayBuffer/** * AUTHOR Guozy * DATE 2019/6/1-14:44 **/object F_clo { var votingName = "jack" v...

2019-06-01 15:49:00 137

转载 scala自定义隐式转换

Scala自定义隐式转换一、编写隐式转换类/** * Author Mr. Guo * Create 2019/4/20 - 17:40 */object StringImprovments { implicit class StringImprove(s: String) { def increment = s.toString.m...

2019-05-20 22:06:00 158

转载 通过statCounter计算给定的RDD[Double]的统计信息的方法

需求1:给定一个RDD[Double],进行计算,该RDD的统计信息(count,mean,stdev,max,min)代码:def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getName...

2019-05-02 21:43:00 160

转载 Error during generated code invocation: com.intellij.debugger.engine.evaluation.EvaluateException: ...

场景描述:  再从该数据库中读取数据进行处理的时候,需要将某个字段加入到一个动态的map中,然后需要对该map进行filter过滤,在执行过滤方法的时候报错Error during generated code invocation: com.intellij.debugger.engine.evaluation.EvaluateException: Method thr...

2019-04-18 13:40:00 7102

转载 ERROR:scala:Error:Object scala.runtime in compiler mirror not found

我的项目是sbt项目,今天早晨的时候还好好的,结果中午吃了个饭回来就特么的编译就报错了,真是闹心报错截图:解决方案:  删除idea的缓存文件然后重新启动idea,重新下载jia包,在进行编译,就可以了,这个只是其中的一种办法产生原因:  目前还未找到,希望有遇到该问题查处原因的网友留言告知,感激不尽转载于:https://www.cnbl...

2019-04-15 23:00:00 979

转载 Spark操作dataFrame进行写入mysql,自定义sql的方式

业务场景:  现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制:  1、mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id  2、在进行将dataFrame写入表的时候,id字段不允许手动写入,因为其实自增长的要求:  1、写入数据库的时候,需要指定字段写入,也就是说,只指定部分字段写入 ...

2019-04-14 17:31:00 624

转载 关于spark写入文件至文件系统并制定文件名之自定义outputFormat

引言:  spark项目中通常我们需要将我们处理之后数据保存到文件中,比如将处理之后的RDD保存到hdfs上指定的目录中,亦或是保存在本地spark保存文件:  1、rdd.saveAsTextFile("file:///E:/dataFile/result")  2、rdd.saveAsHadoopFile("file:///E:/dataFile/result",cl...

2019-04-14 16:39:00 1483

转载 关于spark中DatatFrame函数操作中isin方法的使用

需求:  1、需要从一张mysql数据表中获取并筛选数据    2、通过spark将该表读进来,形成一个df:DataFrame,有一个集合    val list = List[String]("小李", "小王", "4", "5", "7")  3、需要从df中进行筛选出来name在list中的值        df.where('name.isin(lis...

2019-04-10 13:54:00 1906

转载 mysql查表的时候报错:java.sql.SQLException: Value '0000-00-00 00:00:00' can not be represented as java.sql.T...

在spark项目中读取mysql中的数据的时候,发生了报错:原因:主要是因为数据库中有一些字段为null,无法进行转换:上面字段那种,我的inserttime字段类型为timestamp类型,不为空,默认值为000-00-00 00:00:00,所以无法进行转换,所以要进行处理一下所以这里要进行一下转换,需要在url中添加一些转换:修改之前的url:jdbc:...

2019-04-10 13:40:00 165

转载 IDEA永久激活方法

Idea版本:2018.1.5准备工作:  1、安装,从官网下载安装,点击进去之后,进行选择需要的版本    2、下载破解包:    链接:https://pan.baidu.com/s/1lCb0MGetP1_3XlI2-gWMbQ     提取码:hfqm   3、激活码:BIG3CLIK6F-eyJsaWNlbnNlSWQiOiJCSUczQ0xJ...

2019-04-05 14:41:00 3535

转载 idea在本地调试,spark创建hiveContext的时候报错

spark版本:1.6.1scala版本:2.10问题呢场景:  在idea调试本地程序的时候创建hiveContext报错,上午的时候是没有这个问题的,下午在项目中写了一个小deamon,出现了而这个问题,下面是我的代码:import cn.com.xxx.common.config.SparkConfigimport org.apache.spark.sql....

2019-04-03 16:27:00 245

转载 冒泡排序

一、思路  在进行冒泡排序(升序)时,需要将数组中的元素(len)两两进行比较,如果前面的元素大于后面的元素的话,则交换两个数,否则,比较下一个元素和它下一个元素的大小,依次执行,执行一次循环结束之后,可以找到当前数组中最大的一个元素,将其排到了最后面,然后问题规模变小,然后找出len-1个元素里的最大值,使之成为第二大元素,依次执行,需要在外层嵌套一层循环。二、优化  如果...

2019-03-06 22:49:00 55

转载 YARN的三种调度器的使用

    YRAN提供了三种调度策略一、FIFO-先进先出调度器    YRAN默认情况下使用的是该调度器,即所有的应用程序都是按照提交的顺序来执行的,这些应用程序都放在一个队列中,只有在前面的一个任务执行完成之后,才可以执行后面的任务,依次执行    缺点:如果有某个任务执行时间较长的话,后面的任务都要处于等待状态,这样的话会造成资源的使用率不高;如果是多人共享集群资源的话,...

2019-03-02 17:52:00 481

转载 java8中的时间处理

java8中关于时间的处理整理package com.xb.utils;import java.time.*;import java.time.format.DateTimeFormatter;import java.time.temporal.ChronoUnit;import java.util.Date;/** * Author Mr. Gu...

2019-03-02 11:50:00 70

转载 scala面试题总结

一、scala语言有什么特点?什么是函数式编程?有什么优点?  1、scala语言集成面向对象和函数式编程  2、函数式编程是一种典范,将电脑的运算视作是函数的运算。  3、与过程化编程相比,函数式编程里的函数计算可以随时调用。  4、函数式编程中,函数是一等功明。二、scala中的闭包  1、定义:你可以在任何作用域内定义函数:包,类甚至是另一个函数或方法。在函...

2019-03-02 11:35:00 264

转载 flink入门

wordCountPOM文件需要导入的依赖:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> ...

2019-01-19 11:18:00 83

转载 HBase过滤器的使用

一、常用过滤器:  1、数据准备:  Rowkey:001 Family:Quilfifier address value: 昆明市西山区Rowkey:001 Family:Quilfifier age value: 23Rowkey:001 Family:Quilfifier name value: 小明Rowkey:001 ...

2019-01-16 23:34:00 98

转载 spark中的combineByKey函数的用法

一、函数的源码/** * Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD using the * existing partitioner/parallelism level. This method is here for backward...

2018-12-03 01:08:00 230

转载 springBoot之HelloWorld

开发工具:IDEASprintBoot版本:1.4.1项目结构图:核心注解类说明@RestController  就是@Controller+@ResponseBody组合,支持RESTful访问方式,返回结果都是json字符串@SpringBootApplication  @SpringBootConfiguration+@EnableAutoConfigura...

2018-11-15 17:08:00 77

转载 scala操作HBase2.0

  在前面:  scala:2.12  hbase:2.0.2  开发工具:IDEA 准备工作:  1、将生产上的hbase中的conf/hbase-site.xml文件拷贝到idea中的src/resources目录下      2、将生产环境中hbase中的$HBASE_HOME/lib下的*.jar文件加载到IDEA中      3、点击libr...

2018-11-06 15:35:00 252

转载 spark的二次排序

通过scala实现二次排序package _core.SortAndTopNimport org.apache.spark.{SparkConf, SparkContext}/** * Author Mr. Guo * Create 2018/9/29 - 22:00 */class SecondarySort(val first: Int,...

2018-10-26 14:20:00 104

转载 SparkSql处理嵌套json数据

一、数据准备:{"dc_id": "dc-101","source": { "sensor-igauge": { "id": 10, "ip": "68.28.91.22", "description": "Sensor attached to the container ceilings", "temp"...

2018-10-19 19:25:00 524

转载 mysql连接池的使用工具类代码示例

mysql连接池代码工具示例(scala):import java.sql.{Connection,PreparedStatement,ResultSet}import org.apache.commons.dbcp.BasicDataSourceobject ConnectPoolUtil{ private var bs:BasicDataSource =...

2018-09-28 09:15:00 160

转载 Sparksql的内置函数的使用以及案例

开发环境:spark:2.2.0     工具:IDEA     OS:Windows数据文件:001E8CB5AB11,ASUSTek,2018-07-12 14:00:57,2018-07-12 14:00:57,2018-07-12 14:00:57,未知,僵尸屏,00023242DDEB7,其他,2018-07-12 14:01:04,2018-07-12...

2018-09-19 22:57:00 2097

转载 zookeeper在搭建的时候,解决后台启动为standalone模式问题

今天在搭建zookeeper,搭建完成之后,启动一直报错:上网查了好多资料:有几种解决方案:1、在配置文件conf目录下,将zoo_sample.cfg删除,只留zoo.cfg(然而就我的情况而言,并没啥卵用,不删除也可以)2、最后发现了问题,在配置zoo.cfg的时候把server配置成了slave,粗心啊修改之后即可,同时通过这次错误也发现,zookeeper...

2018-09-18 10:14:00 1865

转载 关于在使用sparksql写程序是报错以及解决方案:org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found,...

说明:  spark --version : 2.2.0  我有两个json文件,分别是emp和dept:emp内容如下:{"name": "zhangsan", "age": 26, "depId": 1, "gender": "male", "salary": 20000}{"name": "lisi", "age": 36, "depId": 2, "gen...

2018-09-05 01:51:00 772

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除