aitiejue5146-CSDN博客

转载 spark算子之Aggregate

Aggregate函数一、源码定义/** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This functi...

2019-08-31 01:17:00 292

转载 java.lang.SecurityException: class "javax.servlet.ServletRegistration"'s signer information does not...

报错信息：报错截图：解决方案：因为本人是sbt项目，所以添加一下依赖之后解决：如果是maven项目的话，添加依赖到pom文件中然后在重新build，之后就可以了转载于:https://www.cnblogs.com/Gxiaobai/p/11415900.html...

2019-08-27 00:35:00 308

转载 Hive SQL之分区表与分桶表

　　Hive sql是Hive 用户使用Hive的主要工具。Hive SQL是类似于ANSI SQL标准的SQL语言，但是两者有不完全相同。Hive SQL和Mysql的SQL方言最为接近，但是两者之间也存在着显著的差异，比如Hive不支持行级数据的插入、更新和删除，也不支持事务操作。　　注: HIVE 2.*版本之后开始支持事务功能，以及对单条数据的插入更新等操作Hive的相关...

2019-08-18 11:57:00 293

转载 hive之基本架构

什么是Hive　　hive是建立在Hadoop体系架构上的一层SQL抽象，使得数据相关人员是用他们最为熟悉的SQL语言就可以进行海量的数据的处理、分析和统计工作，而不是必须掌握JAVA等变成语言和具备开发MapReduce程序的能力。Hive SQL实际上是先被SQL解析器进行解析然后被Hive框架解析成一个MapReduce可执行的计划，并且按照该计划生成MapReduce任务后交...

2019-08-17 23:42:00 177

转载数据结构-链表（2）

双向链表上文中详解了单向链表，本节主要针对双向链表的原理、优缺点以及各个操作进行讲解。双向链表对于单项链表来说，它支持两个方向，每个结点不止有一个后继指针next指向后面的结点，而且还有一个前驱指针prev指向前面的结点，结合图来看看：从图中可以看出，双向链表需要额外的两个空间来存储后继结点和前驱节点的地址。所以存储同样的数据，双向链表要比单向链表占用更多的空间。...

2019-08-17 12:05:00 144

转载数据结构-数组

　　一、数组的概念　　定义：数组（Array）是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。　　从概念中可以知道一下几点：数组是线性表。　　　　所谓的线性表就是数据排成一排，想一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。当然除了数组，链表、队列、栈等也是线性表结构　　　　　　连续的内存空间和形同类型的数据...

2019-08-13 00:33:00 120

转载数据结构-链表（1）

链表是一种用于存储数据集合的数据结构。链表有以下几个属性：相邻元素之间通过指针进行连接最后一个元素的后继指针值为NULL在程序执行的过程中，链表的长度可以增加或缩小链表的空间能够按需分配(直到系统内存耗尽)没有内存空间的浪费(但是链表中的指针需要一些额外的内存开销)　　一、链表的分类　　链表大致可以分为这么几类：单向链表双向链表...

2019-08-10 15:43:00 217

转载 shell脚本之用户管理

#!/usr/bin/env bash################################ 脚本名称 : userManager.sh ## 脚本功能 : 账号管理 ## 脚本参数 : 无 ## 创建时间 : 2019-07-25 # # 作者 : Mr.Guo ...

2019-07-27 23:25:00 192

转载 spark编写UDF和UDAF

UDF：一、编写udf类，在其中定义udf函数package spark._sql.UDFimport org.apache.spark.sql.functions._/** * AUTHOR Guozy * DATE 2019/7/18-9:41 **/object udfs { def len(str: String): I...

2019-07-21 00:35:00 172

转载 spark-sql中的分析函数的使用

分析函数的应用场景：　　（1）用于分组后组内排序　　（2）指定计算范围　　（3）Top N　　（4）累加计算　　（5）层次计算分析函数的一般语法：　　分析函数的语法结构一般是：　　分析函数名(参数) over (子partition by 句 order by 字句 rows/range 字句)　　1、分析函数名：sum、max、min、coun...

2019-07-20 15:46:00 318

转载 shell脚本中关于日期的操作

一、计算指定日期的前一天的日期　　date -d "yesterday 20150401 " +%Y%m%d二、如果获取当前日期的前一天 date -d "yesterday" +%Y%m%d三、计算指定日期的前几天（例如计算20190716的前10天）,如果是负数的话，则会往前数　　date -d "10 day ago 20190716" +%Y%m%...

2019-07-16 21:39:00 278

转载 spark运行任务报错：Container [...] is running beyond physical memory limits. Current usage: 3.0 GB of 3 GB ...

spark版本：1.6.0scala版本：2.10报错日志：Application application_1562341921664_2123 failed 2 times due to AM Container for appattempt_1562341921664_2123_000002 exited with exitCode: -104For more d...

2019-07-10 22:19:00 1178

转载 spark自定义分区器实现

在spark中，框架默认使用的事hashPartitioner分区器进行对rdd分区，但是实际生产中，往往使用spark自带的分区器会产生数据倾斜等原因，这个时候就需要我们自定义分区，按照我们指定的字段进行分区。具体的流程步骤如下：1、创建一个自定义的分区类，并继承Partitioner，注意这个partitioner是spark的partitioner2、重写partition...

2019-06-23 17:06:00 287

转载 IDEA使用maven插件打jar包流程

idea使用maven插件打jar包步骤以及遇到的问题　　idea自带了maven工具，idea右边点击maven选项：　　一、在pom中添加插件，直接复制就好，如下选项 <plugin> <artifactId>maven-assembly-plugin</artifactId>...

2019-06-01 18:56:00 259

转载 scala中的闭包

scala闭包代码示例：package test.close_packimport scala.collection.mutable.ArrayBuffer/** * AUTHOR Guozy * DATE 2019/6/1-14:44 **/object F_clo { var votingName = "jack" v...

2019-06-01 15:49:00 137

转载 scala自定义隐式转换

Scala自定义隐式转换一、编写隐式转换类/** * Author Mr. Guo * Create 2019/4/20 - 17:40 */object StringImprovments { implicit class StringImprove(s: String) { def increment = s.toString.m...

2019-05-20 22:06:00 158

转载通过statCounter计算给定的RDD[Double]的统计信息的方法

需求1：给定一个RDD[Double],进行计算，该RDD的统计信息(count,mean,stdev,max,min)代码：def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getName...

2019-05-02 21:43:00 160

转载 Error during generated code invocation: com.intellij.debugger.engine.evaluation.EvaluateException: ...

场景描述：　　再从该数据库中读取数据进行处理的时候，需要将某个字段加入到一个动态的map中，然后需要对该map进行filter过滤，在执行过滤方法的时候报错Error during generated code invocation: com.intellij.debugger.engine.evaluation.EvaluateException: Method thr...

2019-04-18 13:40:00 7102

转载 ERROR:scala:Error:Object scala.runtime in compiler mirror not found

我的项目是sbt项目，今天早晨的时候还好好的，结果中午吃了个饭回来就特么的编译就报错了，真是闹心报错截图：解决方案：　　删除idea的缓存文件然后重新启动idea，重新下载jia包，在进行编译，就可以了，这个只是其中的一种办法产生原因：　　目前还未找到，希望有遇到该问题查处原因的网友留言告知，感激不尽转载于:https://www.cnbl...

2019-04-15 23:00:00 979

转载 Spark操作dataFrame进行写入mysql，自定义sql的方式

业务场景：　　现在项目中需要通过对spark对原始数据进行计算，然后将计算结果写入到mysql中，但是在写入的时候有个限制：　　1、mysql中的目标表事先已经存在，并且当中存在主键，自增长的键id　　2、在进行将dataFrame写入表的时候，id字段不允许手动写入，因为其实自增长的要求：　　1、写入数据库的时候，需要指定字段写入，也就是说，只指定部分字段写入　...

2019-04-14 17:31:00 624

转载关于spark写入文件至文件系统并制定文件名之自定义outputFormat

引言:　　spark项目中通常我们需要将我们处理之后数据保存到文件中，比如将处理之后的RDD保存到hdfs上指定的目录中，亦或是保存在本地spark保存文件：　　1、rdd.saveAsTextFile("file:///E:/dataFile/result")　　2、rdd.saveAsHadoopFile("file:///E:/dataFile/result",cl...

2019-04-14 16:39:00 1483

转载关于spark中DatatFrame函数操作中isin方法的使用

需求：　　1、需要从一张mysql数据表中获取并筛选数据　　　　2、通过spark将该表读进来，形成一个df:DataFrame,有一个集合　　　　val list = List[String]("小李", "小王", "4", "5", "7")　　3、需要从df中进行筛选出来name在list中的值　　　　　　　　df.where('name.isin(lis...

2019-04-10 13:54:00 1906

转载 mysql查表的时候报错：java.sql.SQLException: Value '0000-00-00 00:00:00' can not be represented as java.sql.T...

在spark项目中读取mysql中的数据的时候，发生了报错：原因：主要是因为数据库中有一些字段为null，无法进行转换：上面字段那种，我的inserttime字段类型为timestamp类型，不为空，默认值为000-00-00 00:00:00，所以无法进行转换，所以要进行处理一下所以这里要进行一下转换，需要在url中添加一些转换：修改之前的url：jdbc:...

2019-04-10 13:40:00 165

转载 IDEA永久激活方法

Idea版本:2018.1.5准备工作：　　1、安装，从官网下载安装，点击进去之后，进行选择需要的版本　　　　2、下载破解包：　　　　链接：https://pan.baidu.com/s/1lCb0MGetP1_3XlI2-gWMbQ 　　　　提取码：hfqm 　　3、激活码：BIG3CLIK6F-eyJsaWNlbnNlSWQiOiJCSUczQ0xJ...

2019-04-05 14:41:00 3535

转载 idea在本地调试，spark创建hiveContext的时候报错

spark版本：1.6.1scala版本：2.10问题呢场景：　　在idea调试本地程序的时候创建hiveContext报错，上午的时候是没有这个问题的，下午在项目中写了一个小deamon，出现了而这个问题，下面是我的代码：import cn.com.xxx.common.config.SparkConfigimport org.apache.spark.sql....

2019-04-03 16:27:00 245

转载冒泡排序

一、思路　　在进行冒泡排序(升序)时，需要将数组中的元素(len)两两进行比较，如果前面的元素大于后面的元素的话，则交换两个数，否则，比较下一个元素和它下一个元素的大小，依次执行，执行一次循环结束之后，可以找到当前数组中最大的一个元素，将其排到了最后面，然后问题规模变小，然后找出len-1个元素里的最大值，使之成为第二大元素，依次执行，需要在外层嵌套一层循环。二、优化　　如果...

2019-03-06 22:49:00 55

转载 YARN的三种调度器的使用

　　　　YRAN提供了三种调度策略一、FIFO-先进先出调度器　　　　YRAN默认情况下使用的是该调度器，即所有的应用程序都是按照提交的顺序来执行的，这些应用程序都放在一个队列中，只有在前面的一个任务执行完成之后，才可以执行后面的任务，依次执行　　　　缺点：如果有某个任务执行时间较长的话，后面的任务都要处于等待状态，这样的话会造成资源的使用率不高；如果是多人共享集群资源的话，...

2019-03-02 17:52:00 481

转载 java8中的时间处理

java8中关于时间的处理整理package com.xb.utils;import java.time.*;import java.time.format.DateTimeFormatter;import java.time.temporal.ChronoUnit;import java.util.Date;/** * Author Mr. Gu...

2019-03-02 11:50:00 70

转载 scala面试题总结

一、scala语言有什么特点？什么是函数式编程？有什么优点？　　1、scala语言集成面向对象和函数式编程　　2、函数式编程是一种典范，将电脑的运算视作是函数的运算。　　3、与过程化编程相比，函数式编程里的函数计算可以随时调用。　　4、函数式编程中，函数是一等功明。二、scala中的闭包　　1、定义：你可以在任何作用域内定义函数:包，类甚至是另一个函数或方法。在函...

2019-03-02 11:35:00 264

转载 flink入门

wordCountPOM文件需要导入的依赖：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> ...

2019-01-19 11:18:00 83

转载 HBase过滤器的使用

一、常用过滤器：　　1、数据准备：　　Rowkey:001 Family:Quilfifier address value: 昆明市西山区Rowkey:001 Family:Quilfifier age value: 23Rowkey:001 Family:Quilfifier name value: 小明Rowkey:001 ...

2019-01-16 23:34:00 98

转载 spark中的combineByKey函数的用法

一、函数的源码/** * Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD using the * existing partitioner/parallelism level. This method is here for backward...

2018-12-03 01:08:00 230

转载 springBoot之HelloWorld

开发工具：IDEASprintBoot版本：1.4.1项目结构图：核心注解类说明@RestController　　就是@Controller+@ResponseBody组合，支持RESTful访问方式，返回结果都是json字符串@SpringBootApplication　　@SpringBootConfiguration+@EnableAutoConfigura...

2018-11-15 17:08:00 77

转载 scala操作HBase2.0

　　在前面：　　scala:2.12　　hbase:2.0.2　　开发工具：IDEA　准备工作：　　1、将生产上的hbase中的conf/hbase-site.xml文件拷贝到idea中的src/resources目录下　　　　　　2、将生产环境中hbase中的$HBASE_HOME/lib下的*.jar文件加载到IDEA中　　　　　　3、点击libr...

2018-11-06 15:35:00 252

转载 spark的二次排序

通过scala实现二次排序package _core.SortAndTopNimport org.apache.spark.{SparkConf, SparkContext}/** * Author Mr. Guo * Create 2018/9/29 - 22:00 */class SecondarySort(val first: Int,...

2018-10-26 14:20:00 104

转载 SparkSql处理嵌套json数据

一、数据准备：{"dc_id": "dc-101","source": { "sensor-igauge": { "id": 10, "ip": "68.28.91.22", "description": "Sensor attached to the container ceilings", "temp"...

2018-10-19 19:25:00 524

转载 mysql连接池的使用工具类代码示例

mysql连接池代码工具示例(scala)：import java.sql.{Connection,PreparedStatement,ResultSet}import org.apache.commons.dbcp.BasicDataSourceobject ConnectPoolUtil{ private var bs:BasicDataSource =...

2018-09-28 09:15:00 160

转载 Sparksql的内置函数的使用以及案例

开发环境：spark：2.2.0　　　　　工具：IDEA　　　　　OS:Windows数据文件：001E8CB5AB11,ASUSTek,2018-07-12 14:00:57,2018-07-12 14:00:57,2018-07-12 14:00:57,未知,僵尸屏,00023242DDEB7,其他,2018-07-12 14:01:04,2018-07-12...

2018-09-19 22:57:00 2097

转载 zookeeper在搭建的时候，解决后台启动为standalone模式问题

今天在搭建zookeeper，搭建完成之后，启动一直报错：上网查了好多资料：有几种解决方案：1、在配置文件conf目录下，将zoo_sample.cfg删除，只留zoo.cfg（然而就我的情况而言，并没啥卵用，不删除也可以）2、最后发现了问题，在配置zoo.cfg的时候把server配置成了slave，粗心啊修改之后即可，同时通过这次错误也发现，zookeeper...

2018-09-18 10:14:00 1865

转载关于在使用sparksql写程序是报错以及解决方案：org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found,...

说明：　　spark --version : 2.2.0　　我有两个json文件，分别是emp和dept：emp内容如下：{"name": "zhangsan", "age": 26, "depId": 1, "gender": "male", "salary": 20000}{"name": "lisi", "age": 36, "depId": 2, "gen...

2018-09-05 01:51:00 772

空空如也

空空如也