R_记忆犹新-CSDN博客

SparkException: Values to assemble cannot be null代码为：val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3))val assembler = new VectorAssembler() .setInputCols(len_df.selec...

2019-07-02 18:39:59 2911

原创使用SparkSQL时使用SQL语句中的COLLECT_SET和后期处理需要注意问题

在使用SparkSQL的SQL语句进行聚合后拼接时，需要使用CONCAT_WS进行多字段拼接，再使用COLLECT_SET进行收集，返回一个Array数组的集合。如： val imo_type_sql = """ |SELECT IMO, MMSI, COLLECT_SET(CONCAT_WS("~",ShipType, count)) as type_cou...

2019-06-28 16:35:20 5551

原创 Spark任务跑完将结果以邮件的方式进行发送

工作中，一般是晚上提交任务，第二天等结果，等跑完再走等问题阻碍着我们的步伐，现开发提交完任务就可以第一时间知道，并可以发送给领导，很方便以下代码为scala编写，主要应用于跑spark任务后的结果发送。开始需要：构建maven项目：添加依赖pom.xml: <!-- https://mvnrepository.com/artifact/com.typesafe.play/...

2019-06-27 19:47:45 2965 5

原创 python安装pip问题

出现问题：今天安装pipsudo apt-get install pip一直报错：E: Could not read response to hello message from hook [ ! -f /usr/bin/snap ] || /usr/bin/snap advise-snap --from-apt 2>/dev/null || true: Success...

2019-06-26 14:53:49 764

原创 Maven小问题

在使用Maven创建项目时，使用模块进行分类管理时，发现当删除一个子模块时，再对其父模块进行打包时，打包过程中没有任何错误，但是最终的jar包不会生成。经查询对比发现：在其是父模块时，pom.xml中配置如下：<artifactId>static_log</artifactId> <packaging>pom</packaging&g...

2019-06-19 09:52:42 208

原创 Spark DataFrame导入mysql入库添加自增主键id

Spark DataFrame 添加一个自增主键id 在使用SparkSQL处理数据的时候，经常需要给全量数据增加一列自增的ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在DataFrame的API中没有实现这一功能，所以只能通过其他方式实现，或者转成RDD再用RDD的zipWithIndex算子实现。下面介绍两种实现方式：方式一：利用窗口函数// 加载数据val...

2019-06-06 17:31:28 3940

原创 Spark SQL 中数据类型为Map的注意事项

在使用SparkSQL进行处理数据时，将数据保存为Map，并读取出Map的数据数据列聚合操作后拼接为一个字符集合：BSV ANGLIA_1~BSV ANGLIA---_2SELECT MMSI, IMO, concat_ws("~",collect_set(concat_ws("_",ShipName,name_num))) as shipNum, max(time) as last_t...

2019-06-05 20:16:27 5968

原创 idea中使用scala运行spark出现 java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

idea中使用scala运行spark出现：Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class需要确保 spark所使用的scala版本与你系统scala的版本一致即可<dependenc...

2019-05-31 15:04:44 2849

原创 LINUX子系统UBUNTU16.04安装使用XRDP当远程桌面

Win10下的LINUX子系统UBUNTU16.04安装使用XRDP当远程桌面1. 在Microsoft Store中搜索Ubuntum，在应用页安装好Ubuntu2. 在左下角的Cortana中搜索Ubuntu，点击即可进入到Ubuntu系统，此时没有图形界面3. 接下来在终端界面安装图形界面Xrdp是一个提供远程桌面服务的服务器程序，在Ubuntu上运行它，我们就可以在Win...

2019-05-30 15:06:07 2157 1

原创移动平均算法的实现方法

要解决移动平均问题，提供两个简单Java对象解决方案：解决方案1：使用java.util.Queuepackage simpleMoving;/** * SimpleMovingAverage * 使用队列实现POJO移动平均 */import java.util.LinkedList;import java.util.Queue;public class Simple...

2019-04-12 20:55:43 2872

原创 MySQL在Linux的安装(5.7以下)

使用通用二进制文件在Unix / Linux上安装MySQLMySQL压缩的tar文件二进制分发包含表单的名称，其中是一个数字（例如），并指示分配所针对的操作系统的类型（例如或）。mysql-VERSION-OS.tar.gzVERSION5.7.23OSpc-linux-i686winx64警告：如果您以前使用操作系统本机软件包管理系统（如Yum或APT）安装了MySQL，则使用...

2019-04-12 20:51:26 273

原创 Linux下Mysql 5.7.21 安装

# tar -zxvf mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 解压 # mv mysql-5.7.21-linux-glibc2.12-x86_64 mysql 重命名 # cat /etc/group | grep mysql 查看有没有mysql组 # cat /etc/passwd |...

2019-04-12 20:45:32 1233

原创修改本地yum源

替换国内yum源修改liunx里的文件一定要先备份备份备份，重要的事情说三遍备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup然后下载wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.163.com/...

2019-04-12 20:36:16 416

原创系统管理_挂载外部设备

挂载是一个非常重要的功能，使用非常频繁。它指将一个设备（通常是存储设备，可以挂载光盘、硬盘、磁带、光盘镜像文件等）挂接到一个已存在的目录上（这个目录可以不为空，但挂载后这个目录下以前的内容将不可用）。需要理解的是，Linux 操作系统将所有的设备都看作文件，它将整个计算机的资源都整合成一个大的文件目录。我们要访问存储设备中的文件，必须将文件所在的分区挂载到一个已存在的目录上，然后通过访...

2019-04-12 20:35:29 378

原创 Linux命令速查手册(附Linux目录结构详解图)

常用的命令ls,列出当前目录下的文件，ls -l是列出详细信息，ls -a列出隐藏文件。cd,更改目录。clear，清屏命令。reset，重置终端。startx,启动图形界面。fdisk -l,查看硬盘分区。ps aux，列出系统进程。cat,显示文本。tac,逆序显示文本。od,二进制格式显示文本。wc,判断文件的大小行数和字符数等等。aspell，检...

2019-04-12 20:33:56 899

原创 Httpd 服务启动流程

Httpd 服务1、先检查本机的 httpd 服务是否开启，使用命令： service --status-all | grep httpd2、开启 httpd 服务启动httpd服务:service httpd start检查服务: service --status-all | grep httpd为确保是否开启成功，请再重新检查一次3、我们进入到/var/www...

2019-04-12 20:30:36 7532

原创 SparkContext源码解析说明

解说SparkContxt源码，下次解析

2019-04-12 16:34:38 177

原创使用IDEA直接连接虚拟机

1.在Intellij_idea上面点击如下菜单：Tools—Deployment—Configuration…2.新增一台虚机，输入名称，选择SFTP协议，点击OK3.输入IP地址、代码路径、账号密码，点击OK4.点击Tools—Deployment—Browse RemoteHost5.右侧会出现对应的...

2019-04-09 19:05:32 8672 5

原创将一些转义字符替换为指定标准的字符

需求：各字段中的回车符、换行符使用空格符(“ ”，十六进制0x20)进行转义。英文逗号“,” 双引号“"” 单引号“’”以及竖线分隔符“|” 按照RFC1738标准分别使用 %2C、%22、%27、%7C进行转义。package com.rk.sparkimport org.apache.commons.lang.StringEscapeUtils/** * @prog...

2019-03-15 14:49:03 1492

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-03-14 17:32:48 131

转载 Spark资料查找

这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理，随后是实战例子，由于面向的是入门读者...

2019-03-05 19:05:01 201

原创 spark中使用Accumulator累加器使用和注意事项

Accumulator简介Accumulator是spark提供的累加器，累加器的一个常用用途是在调试时对作业执行过程中的事件进行计数，但是只要driver能获取Accumulator的值(使用value方法), Task只能对其做增加操作(使用+=)，也可以在为Accumulator命名(不支持Python)，这样就会在spark web ui中显示，可以帮助了解程序运行的情况。数值累...

2019-03-05 17:24:32 5189

原创使用spark2.4和maven3.6.0组合开发踩过的坑

ERROR：thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582这是paranamer版本的问题。在spark-core / spark-sql之前添加以下依赖项。<dependency> <groupId>com.thoughtworks.paranamer</groupId&g...

2019-03-04 16:57:06 2017

原创在使用cv2实现人脸识别时在识别框上显示中文

在人脸识别时，是哪个人，需要实现显示名字，但OpenCV2.x的putText是无法处理中文的（OpenCV3.x中集成了freetype实现中文输出），同样，Python2.x对中文的支持也很差（同样这一情况在Python3.x中得到了改善）。查看资料发现，有两种方式：1. 将cv2图片转为pil，然后再添加汉字后，再转成cv2格式（（pil下载地址）https://www.lfd...

2019-01-12 12:01:11 7007 1

原创 Git使用学习

一、初识 git1. 什么是gitGit是一个开源的分布式版本控制系统，可以有效、高速的处理从很小到非常大的项目版本管理。Git是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。2、分布式和集中式的区别集中式：需要有台服务器安装服务端；每个想要和服务端通讯的终端都需要安装该软件客户端。每台计算机都通过...

2018-12-14 14:22:14 249

原创 Elastic Search 学习入门之restful的高级查询操作(九)

REST简介： RSET全称Representational State Transfer。是一种软件的架构风格，而不是标准，只是提供一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制，其实说白了就是类似HTTP的访问，和HTTP非常的相似。 REST操作： GET：获...

2018-12-13 12:21:56 1287

原创 Elastic Search 学习入门之中文检索（八）

安装ik的方式：1.离线安装：下载：https://github.com/medcl/elasticsearch-analysis-ik/tree/v6.5.0 解压到 $ES_HOME/plugins目录下面遇到问题：解决问题：在elasticsearch-analysis-ik-6.5.0目录下需要使用mvn进行编译：mvn cl...

2018-12-12 11:31:49 594

原创 Elastic Search 学习入门之Search全文检索(七)

ES是基于Lucene的开源搜索引擎，其查询语法关键字部分和Lucene大致一样：分页： from/size、字段：fields、排序：sort、查询：query过滤：filter、高亮：highlight、统计：facetES的搜索类型有4种(以下说明是基于elasticsearch2.3):query and fetch (速度最快)(返回N倍数据量) 受保护，5.3之...

2018-12-10 21:15:31 2675

原创 Elastic Search 学习入门之JavaAPI客户端操作(六)

1. 添加Maven依赖： <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>transport</artifactId> <version>6.5.0</version>

2018-12-10 17:49:47 261

原创 Elastic Search 学习入门之插件安装(五)

ES本身服务相对比较少，其功能的强大之处就体现在插件的丰富性上。有非常多的ES插件用于ES的管理，性能的完善，下面就给大家介绍几款常用的插件。1.1-1.4是基于elasticsearch2.3来进行配置1.1 Elasticsearch-servicewrapper这里就先介绍一个插件用于ES的服务端管理——Elasticsearch-servicewrapper（绝大部分的插件都在git...

2018-12-10 11:13:56 377

原创 Elastic Search 学习入门之核心概念(四)

1.1 Cluster代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。ES的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看ES集群，在逻辑上是个整体，你与任何一个节点的通信和与整个ES集群通信是等价的。主节点的职责是负责管理集群状态，包括管理分片的状态和副本的状态，以及节点的发...

2018-12-10 11:09:23 371

原创 Elastic Search 学习入门之生产环境下node.master和node.data的设置(三)

在生产环境下，如果不修改elasticsearch节点的角色信息，在高数据量，高并发的场景下，集群容易出现脑裂等问题。默认情况下，elasticsearch集群中每个节点都有成为主节点的资格，也都存储数据，还可以提供查询服务。这些功能是由两个属性控制的。分别是node.master和node.data默认情况下这两个属性的值都是true。下面详细介绍一下这两个属性的含义以及不同组合...

2018-12-08 19:06:56 1776 4