- 博客(42)
- 收藏
- 关注
转载 spark算子之Aggregate
Aggregate函数一、源码定义/** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This functi...
2019-08-31 01:17:00 292
转载 java.lang.SecurityException: class "javax.servlet.ServletRegistration"'s signer information does not...
报错信息:报错截图:解决方案:因为本人是sbt项目,所以添加一下依赖之后解决:如果是maven项目的话,添加依赖到pom文件中然后在重新build,之后就可以了转载于:https://www.cnblogs.com/Gxiaobai/p/11415900.html...
2019-08-27 00:35:00 308
转载 Hive SQL之分区表与分桶表
Hive sql是Hive 用户使用Hive的主要工具。Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同。Hive SQL和Mysql的SQL方言最为接近,但是两者之间也存在着显著的差异,比如Hive不支持行级数据的插入、更新和删除,也不支持事务操作。 注: HIVE 2.*版本之后开始支持事务功能,以及对单条数据的插入更新等操作Hive的相关...
2019-08-18 11:57:00 293
转载 hive之基本架构
什么是Hive hive是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员是用他们最为熟悉的SQL语言就可以进行海量的数据的处理、分析和统计工作,而不是必须掌握JAVA等变成语言和具备开发MapReduce程序的能力。Hive SQL实际上是先被SQL解析器进行解析然后被Hive框架解析成一个MapReduce可执行的计划,并且按照该计划生成MapReduce任务后交...
2019-08-17 23:42:00 177
转载 数据结构-链表(2)
双向链表上文中详解了单向链表, 本节主要针对双向链表的原理、优缺点以及各个操作进行讲解。双向链表对于单项链表来说,它支持两个方向,每个结点不止有一个后继指针next指向后面的结点,而且还有一个前驱指针prev指向前面的结点,结合图来看看:从图中可以看出,双向链表需要额外的两个空间来存储后继结点和前驱节点的地址。所以存储同样的数据,双向链表要比单向链表占用更多的空间。...
2019-08-17 12:05:00 144
转载 数据结构-数组
一、数组的概念 定义:数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。 从概念中可以知道一下几点:数组是线性表。 所谓的线性表就是数据排成一排,想一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。当然除了数组,链表、队列、栈等也是线性表结构 连续的内存空间和形同类型的数据...
2019-08-13 00:33:00 120
转载 数据结构-链表(1)
链表是一种用于存储数据集合的数据结构。链表有以下几个属性:相邻元素之间通过指针进行连接最后一个元素的后继指针值为NULL在程序执行的过程中,链表的长度可以增加或缩小链表的空间能够按需分配(直到系统内存耗尽)没有内存空间的浪费(但是链表中的指针需要一些额外的内存开销) 一、链表的分类 链表大致可以分为这么几类:单向链表双向链表...
2019-08-10 15:43:00 217
转载 shell脚本之用户管理
#!/usr/bin/env bash################################ 脚本名称 : userManager.sh ## 脚本功能 : 账号管理 ## 脚本参数 : 无 ## 创建时间 : 2019-07-25 # # 作 者 : Mr.Guo ...
2019-07-27 23:25:00 192
转载 spark编写UDF和UDAF
UDF:一、编写udf类,在其中定义udf函数package spark._sql.UDFimport org.apache.spark.sql.functions._/** * AUTHOR Guozy * DATE 2019/7/18-9:41 **/object udfs { def len(str: String): I...
2019-07-21 00:35:00 172
转载 spark-sql中的分析函数的使用
分析函数的应用场景: (1)用于分组后组内排序 (2)指定计算范围 (3)Top N (4)累加计算 (5)层次计算分析函数的一般语法: 分析函数的语法结构一般是: 分析函数名(参数) over (子partition by 句 order by 字句 rows/range 字句) 1、分析函数名:sum、max、min、coun...
2019-07-20 15:46:00 318
转载 shell脚本中关于日期的操作
一、计算指定日期的前一天的日期 date -d "yesterday 20150401 " +%Y%m%d二、如果获取当前日期的前一天 date -d "yesterday" +%Y%m%d三、计算指定日期的前几天(例如计算20190716的前10天),如果是负数的话,则会往前数 date -d "10 day ago 20190716" +%Y%m%...
2019-07-16 21:39:00 278
转载 spark运行任务报错:Container [...] is running beyond physical memory limits. Current usage: 3.0 GB of 3 GB ...
spark版本:1.6.0scala版本:2.10报错日志:Application application_1562341921664_2123 failed 2 times due to AM Container for appattempt_1562341921664_2123_000002 exited with exitCode: -104For more d...
2019-07-10 22:19:00 1178
转载 spark自定义分区器实现
在spark中,框架默认使用的事hashPartitioner分区器进行对rdd分区,但是实际生产中,往往使用spark自带的分区器会产生数据倾斜等原因,这个时候就需要我们自定义分区,按照我们指定的字段进行分区。具体的流程步骤如下:1、创建一个自定义的分区类,并继承Partitioner,注意这个partitioner是spark的partitioner2、重写partition...
2019-06-23 17:06:00 287
转载 IDEA使用maven插件打jar包流程
idea使用maven插件打jar包步骤以及遇到的问题 idea自带了maven工具,idea右边点击maven选项: 一、在pom中添加插件,直接复制就好,如下选项 <plugin> <artifactId>maven-assembly-plugin</artifactId>...
2019-06-01 18:56:00 259
转载 scala中的闭包
scala闭包代码示例:package test.close_packimport scala.collection.mutable.ArrayBuffer/** * AUTHOR Guozy * DATE 2019/6/1-14:44 **/object F_clo { var votingName = "jack" v...
2019-06-01 15:49:00 137
转载 scala自定义隐式转换
Scala自定义隐式转换一、编写隐式转换类/** * Author Mr. Guo * Create 2019/4/20 - 17:40 */object StringImprovments { implicit class StringImprove(s: String) { def increment = s.toString.m...
2019-05-20 22:06:00 158
转载 通过statCounter计算给定的RDD[Double]的统计信息的方法
需求1:给定一个RDD[Double],进行计算,该RDD的统计信息(count,mean,stdev,max,min)代码:def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getName...
2019-05-02 21:43:00 160
转载 Error during generated code invocation: com.intellij.debugger.engine.evaluation.EvaluateException: ...
场景描述: 再从该数据库中读取数据进行处理的时候,需要将某个字段加入到一个动态的map中,然后需要对该map进行filter过滤,在执行过滤方法的时候报错Error during generated code invocation: com.intellij.debugger.engine.evaluation.EvaluateException: Method thr...
2019-04-18 13:40:00 7102
转载 ERROR:scala:Error:Object scala.runtime in compiler mirror not found
我的项目是sbt项目,今天早晨的时候还好好的,结果中午吃了个饭回来就特么的编译就报错了,真是闹心报错截图:解决方案: 删除idea的缓存文件然后重新启动idea,重新下载jia包,在进行编译,就可以了,这个只是其中的一种办法产生原因: 目前还未找到,希望有遇到该问题查处原因的网友留言告知,感激不尽转载于:https://www.cnbl...
2019-04-15 23:00:00 979
转载 Spark操作dataFrame进行写入mysql,自定义sql的方式
业务场景: 现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制: 1、mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id 2、在进行将dataFrame写入表的时候,id字段不允许手动写入,因为其实自增长的要求: 1、写入数据库的时候,需要指定字段写入,也就是说,只指定部分字段写入 ...
2019-04-14 17:31:00 624
转载 关于spark写入文件至文件系统并制定文件名之自定义outputFormat
引言: spark项目中通常我们需要将我们处理之后数据保存到文件中,比如将处理之后的RDD保存到hdfs上指定的目录中,亦或是保存在本地spark保存文件: 1、rdd.saveAsTextFile("file:///E:/dataFile/result") 2、rdd.saveAsHadoopFile("file:///E:/dataFile/result",cl...
2019-04-14 16:39:00 1483
转载 关于spark中DatatFrame函数操作中isin方法的使用
需求: 1、需要从一张mysql数据表中获取并筛选数据 2、通过spark将该表读进来,形成一个df:DataFrame,有一个集合 val list = List[String]("小李", "小王", "4", "5", "7") 3、需要从df中进行筛选出来name在list中的值 df.where('name.isin(lis...
2019-04-10 13:54:00 1906
转载 mysql查表的时候报错:java.sql.SQLException: Value '0000-00-00 00:00:00' can not be represented as java.sql.T...
在spark项目中读取mysql中的数据的时候,发生了报错:原因:主要是因为数据库中有一些字段为null,无法进行转换:上面字段那种,我的inserttime字段类型为timestamp类型,不为空,默认值为000-00-00 00:00:00,所以无法进行转换,所以要进行处理一下所以这里要进行一下转换,需要在url中添加一些转换:修改之前的url:jdbc:...
2019-04-10 13:40:00 165
转载 IDEA永久激活方法
Idea版本:2018.1.5准备工作: 1、安装,从官网下载安装,点击进去之后,进行选择需要的版本 2、下载破解包: 链接:https://pan.baidu.com/s/1lCb0MGetP1_3XlI2-gWMbQ 提取码:hfqm 3、激活码:BIG3CLIK6F-eyJsaWNlbnNlSWQiOiJCSUczQ0xJ...
2019-04-05 14:41:00 3535
转载 idea在本地调试,spark创建hiveContext的时候报错
spark版本:1.6.1scala版本:2.10问题呢场景: 在idea调试本地程序的时候创建hiveContext报错,上午的时候是没有这个问题的,下午在项目中写了一个小deamon,出现了而这个问题,下面是我的代码:import cn.com.xxx.common.config.SparkConfigimport org.apache.spark.sql....
2019-04-03 16:27:00 245
转载 冒泡排序
一、思路 在进行冒泡排序(升序)时,需要将数组中的元素(len)两两进行比较,如果前面的元素大于后面的元素的话,则交换两个数,否则,比较下一个元素和它下一个元素的大小,依次执行,执行一次循环结束之后,可以找到当前数组中最大的一个元素,将其排到了最后面,然后问题规模变小,然后找出len-1个元素里的最大值,使之成为第二大元素,依次执行,需要在外层嵌套一层循环。二、优化 如果...
2019-03-06 22:49:00 55
转载 YARN的三种调度器的使用
YRAN提供了三种调度策略一、FIFO-先进先出调度器 YRAN默认情况下使用的是该调度器,即所有的应用程序都是按照提交的顺序来执行的,这些应用程序都放在一个队列中,只有在前面的一个任务执行完成之后,才可以执行后面的任务,依次执行 缺点:如果有某个任务执行时间较长的话,后面的任务都要处于等待状态,这样的话会造成资源的使用率不高;如果是多人共享集群资源的话,...
2019-03-02 17:52:00 481
转载 java8中的时间处理
java8中关于时间的处理整理package com.xb.utils;import java.time.*;import java.time.format.DateTimeFormatter;import java.time.temporal.ChronoUnit;import java.util.Date;/** * Author Mr. Gu...
2019-03-02 11:50:00 70
转载 scala面试题总结
一、scala语言有什么特点?什么是函数式编程?有什么优点? 1、scala语言集成面向对象和函数式编程 2、函数式编程是一种典范,将电脑的运算视作是函数的运算。 3、与过程化编程相比,函数式编程里的函数计算可以随时调用。 4、函数式编程中,函数是一等功明。二、scala中的闭包 1、定义:你可以在任何作用域内定义函数:包,类甚至是另一个函数或方法。在函...
2019-03-02 11:35:00 264
转载 flink入门
wordCountPOM文件需要导入的依赖:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> ...
2019-01-19 11:18:00 83
转载 HBase过滤器的使用
一、常用过滤器: 1、数据准备: Rowkey:001 Family:Quilfifier address value: 昆明市西山区Rowkey:001 Family:Quilfifier age value: 23Rowkey:001 Family:Quilfifier name value: 小明Rowkey:001 ...
2019-01-16 23:34:00 98
转载 spark中的combineByKey函数的用法
一、函数的源码/** * Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD using the * existing partitioner/parallelism level. This method is here for backward...
2018-12-03 01:08:00 230
转载 springBoot之HelloWorld
开发工具:IDEASprintBoot版本:1.4.1项目结构图:核心注解类说明@RestController 就是@Controller+@ResponseBody组合,支持RESTful访问方式,返回结果都是json字符串@SpringBootApplication @SpringBootConfiguration+@EnableAutoConfigura...
2018-11-15 17:08:00 77
转载 scala操作HBase2.0
在前面: scala:2.12 hbase:2.0.2 开发工具:IDEA 准备工作: 1、将生产上的hbase中的conf/hbase-site.xml文件拷贝到idea中的src/resources目录下 2、将生产环境中hbase中的$HBASE_HOME/lib下的*.jar文件加载到IDEA中 3、点击libr...
2018-11-06 15:35:00 252
转载 spark的二次排序
通过scala实现二次排序package _core.SortAndTopNimport org.apache.spark.{SparkConf, SparkContext}/** * Author Mr. Guo * Create 2018/9/29 - 22:00 */class SecondarySort(val first: Int,...
2018-10-26 14:20:00 104
转载 SparkSql处理嵌套json数据
一、数据准备:{"dc_id": "dc-101","source": { "sensor-igauge": { "id": 10, "ip": "68.28.91.22", "description": "Sensor attached to the container ceilings", "temp"...
2018-10-19 19:25:00 524
转载 mysql连接池的使用工具类代码示例
mysql连接池代码工具示例(scala):import java.sql.{Connection,PreparedStatement,ResultSet}import org.apache.commons.dbcp.BasicDataSourceobject ConnectPoolUtil{ private var bs:BasicDataSource =...
2018-09-28 09:15:00 160
转载 Sparksql的内置函数的使用以及案例
开发环境:spark:2.2.0 工具:IDEA OS:Windows数据文件:001E8CB5AB11,ASUSTek,2018-07-12 14:00:57,2018-07-12 14:00:57,2018-07-12 14:00:57,未知,僵尸屏,00023242DDEB7,其他,2018-07-12 14:01:04,2018-07-12...
2018-09-19 22:57:00 2097
转载 zookeeper在搭建的时候,解决后台启动为standalone模式问题
今天在搭建zookeeper,搭建完成之后,启动一直报错:上网查了好多资料:有几种解决方案:1、在配置文件conf目录下,将zoo_sample.cfg删除,只留zoo.cfg(然而就我的情况而言,并没啥卵用,不删除也可以)2、最后发现了问题,在配置zoo.cfg的时候把server配置成了slave,粗心啊修改之后即可,同时通过这次错误也发现,zookeeper...
2018-09-18 10:14:00 1865
转载 关于在使用sparksql写程序是报错以及解决方案:org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found,...
说明: spark --version : 2.2.0 我有两个json文件,分别是emp和dept:emp内容如下:{"name": "zhangsan", "age": 26, "depId": 1, "gender": "male", "salary": 20000}{"name": "lisi", "age": 36, "depId": 2, "gen...
2018-09-05 01:51:00 772
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人