自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 资源 (6)
  • 收藏
  • 关注

原创 数据开发常用工具---查询结果邮件定时发送

简化开发工作,高效便捷导出,配置少量参数,快速实现功能。

2022-07-21 20:23:34 185

原创 手机服务器艰辛之路(二)~Linux资源扩容问题

手机服务器问题~Linux资源扩容问题

2022-05-15 19:25:20 279

原创 手机服务器艰辛之路(一)~手机服务器环境部署

一、服务器硬件基础二、搭建Linux环境三、 连通验证

2022-05-15 16:38:19 485

原创 在使用Spark ml时, VectorAssembler使用null异常

SparkException: Values to assemble cannot be null代码为:val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3))val assembler = new VectorAssembler() .setInputCols(len_df.selec...

2019-07-02 18:39:59 2340

原创 使用SparkSQL时使用SQL语句中的COLLECT_SET和后期处理需要注意问题

在使用SparkSQL的SQL语句进行聚合后拼接时,需要使用CONCAT_WS进行多字段拼接,再使用COLLECT_SET进行收集,返回一个Array数组的集合。如: val imo_type_sql = """ |SELECT IMO, MMSI, COLLECT_SET(CONCAT_WS("~",ShipType, count)) as type_cou...

2019-06-28 16:35:20 4236

原创 Spark任务跑完将结果以邮件的方式进行发送

工作中,一般是晚上提交任务,第二天等结果,等跑完再走等问题阻碍着我们的步伐,现开发提交完任务就可以第一时间知道,并可以发送给领导,很方便以下代码为scala编写,主要应用于跑spark任务后的结果发送。开始需要:构建maven项目:添加依赖pom.xml: <!-- https://mvnrepository.com/artifact/com.typesafe.play/...

2019-06-27 19:47:45 2133 4

原创 python安装pip问题

出现问题:今天安装pipsudo apt-get install pip一直报错:E: Could not read response to hello message from hook [ ! -f /usr/bin/snap ] || /usr/bin/snap advise-snap --from-apt 2>/dev/null || true: Success...

2019-06-26 14:53:49 594

原创 Maven小问题

在使用Maven创建项目时,使用模块进行分类管理时,发现当删除一个子模块时,再对其父模块进行打包时,打包过程中没有任何错误,但是最终的jar包不会生成。经查询对比发现:在其是父模块时,pom.xml中配置如下:<artifactId>static_log</artifactId> <packaging>pom</packaging&g...

2019-06-19 09:52:42 99

原创 Spark DataFrame导入mysql入库添加自增主键id

Spark DataFrame 添加一个自增主键id 在使用SparkSQL处理数据的时候,经常需要给全量数据增加一列自增的ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在DataFrame的API中没有实现这一功能,所以只能通过其他方式实现,或者转成RDD再用RDD的zipWithIndex算子实现。下面介绍两种实现方式:方式一: 利用窗口函数// 加载数据val...

2019-06-06 17:31:28 3228

原创 Spark SQL 中数据类型为Map的注意事项

在使用SparkSQL进行处理数据时,将数据保存为Map,并读取出Map的数据数据列聚合操作后拼接为一个字符集合:BSV ANGLIA_1~BSV ANGLIA---_2SELECT MMSI, IMO, concat_ws("~",collect_set(concat_ws("_",ShipName,name_num))) as shipNum, max(time) as last_t...

2019-06-05 20:16:27 5240

原创 idea中使用scala运行spark出现 java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

idea中使用scala运行spark出现:Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class需要确保 spark所使用的scala版本与你系统scala的版本一致即可<!--解析json--><dependenc...

2019-05-31 15:04:44 2485

原创 LINUX子系统UBUNTU16.04安装使用XRDP当远程桌面

Win10下的LINUX子系统UBUNTU16.04安装使用XRDP当远程桌面1. 在Microsoft Store中搜索Ubuntum,在应用页安装好Ubuntu2. 在左下角的Cortana中搜索Ubuntu,点击即可进入到Ubuntu系统,此时没有图形界面3. 接下来在终端界面安装图形界面Xrdp是一个提供远程桌面服务的服务器程序,在Ubuntu上运行它,我们就可以在Win...

2019-05-30 15:06:07 1869 1

原创 移动平均算法的实现方法

要解决移动平均问题,提供两个简单Java对象解决方案:解决方案1:使用java.util.Queuepackage simpleMoving;/** * SimpleMovingAverage * 使用队列实现POJO移动平均 */import java.util.LinkedList;import java.util.Queue;public class Simple...

2019-04-12 20:55:43 2401

原创 MySQL在Linux的安装(5.7以下)

使用通用二进制文件在Unix / Linux上安装MySQLMySQL压缩的tar文件二进制分发包含表单的名称,其中是一个数字(例如),并指示分配所针对的操作系统的类型(例如或)。mysql-VERSION-OS.tar.gzVERSION5.7.23OSpc-linux-i686winx64警告:如果您以前使用操作系统本机软件包管理系统(如Yum或APT)安装了MySQL,则使用...

2019-04-12 20:51:26 183

原创 Linux下Mysql 5.7.21 安装

# tar -zxvf mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 解压 # mv mysql-5.7.21-linux-glibc2.12-x86_64 mysql 重命名 # cat /etc/group | grep mysql 查看有没有mysql组 # cat /etc/passwd |...

2019-04-12 20:45:32 1012

原创 修改本地yum源

替换国内yum源修改liunx里的文件一定要先备份 备份 备份,重要的事情说三遍备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup然后下载wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.163.com/...

2019-04-12 20:36:16 297

原创 系统管理_挂载外部设备

挂载是一个非常重要的功能,使用非常频繁。它指将一个设备(通常是存储设备,可以挂载 光盘、硬盘、磁带、光盘镜像文件等)挂接到一个已存在的目录上(这个目录可以不为空, 但挂载后这个目录下以前的内容将不可用)。需要理解的是,Linux 操作系统将所有的设备都看作文件,它将整个计算机的资源都整合成 一个大的文件目录。我们要访问存储设备中的文件,必须将文件所在的分区挂载到一个已存 在的目录上,然后通过访...

2019-04-12 20:35:29 216

原创 Linux命令速查手册(附Linux目录结构详解图)

常用的命令ls,列出当前目录下的文件,ls -l是列出详细信息,ls -a列出隐藏文件。cd,更改目录。clear,清屏命令。reset,重置终端。startx,启动图形界面。fdisk -l,查看硬盘分区。ps aux,列出系统进程。cat,显示文本。tac,逆序显示文本。od,二进制格式显示文本。wc,判断文件的大小行数和字符数等等。aspell,检...

2019-04-12 20:33:56 703

原创 Httpd 服务启动流程

Httpd 服务1、 先检查本机的 httpd 服务是否开启,使用命令: service --status-all | grep httpd2、 开启 httpd 服务启动httpd服务:service httpd start检查服务: service --status-all | grep httpd为确保是否开启成功,请再重新检查一次3、 我们进入到/var/www...

2019-04-12 20:30:36 5244

原创 SparkContext源码解析说明

解说SparkContxt源码,下次解析

2019-04-12 16:34:38 81

原创 使用IDEA直接连接虚拟机

1.在Intellij_idea上面点击如下菜单:Tools—Deployment—Configuration…2.新增一台虚机,输入名称,选择SFTP协议,点击OK3.输入IP地址、代码路径、账号密码,点击OK4.点击Tools—Deployment—Browse RemoteHost5.右侧会出现对应的...

2019-04-09 19:05:32 5660 2

原创 将一些转义字符替换为指定标准的字符

需求:各字段中的 回车符、换行符 使用空格符(“ ”,十六进制0x20)进行转义。 英文逗号“,” 双引号“"” 单引号“’”以及竖线分隔符“|” 按照RFC1738标准分别使用 %2C、%22、%27、%7C进行转义。package com.rk.sparkimport org.apache.commons.lang.StringEscapeUtils/** * @prog...

2019-03-15 14:49:03 1019

转载 使用CSDN-markdown编辑器入门

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-03-14 17:32:48 62

转载 Spark资料查找

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者...

2019-03-05 19:05:01 122

原创 spark中使用Accumulator累加器使用和注意事项

Accumulator简介Accumulator是spark提供的累加器,累加器的一个常用用途是在调试时对作业执行过程中的事件进行计数,但是只要driver能获取Accumulator的值(使用value方法), Task只能对其做增加操作(使用+=),也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示, 可以帮助了解程序运行的情况。数值累...

2019-03-05 17:24:32 3496

原创 使用spark2.4和maven3.6.0组合开发踩过的坑

ERROR:thread "main" java.lang.ArrayIndexOutOfBoundsException: 10582这是paranamer版本的问题。在spark-core / spark-sql之前添加以下依赖项。&lt;dependency&gt; &lt;groupId&gt;com.thoughtworks.paranamer&lt;/groupId&g...

2019-03-04 16:57:06 1800

原创 在使用cv2实现人脸识别时在识别框上显示中文

在人脸识别时,是哪个人,需要实现显示名字,但OpenCV2.x的putText是无法处理中文的(OpenCV3.x中集成了freetype实现中文输出),同样,Python2.x对中文的支持也很差(同样这一情况在Python3.x中得到了改善)。 查看资料发现,有两种方式:1. 将cv2图片转为pil,然后再添加汉字后,再转成cv2格式((pil下载地址)https://www.lfd...

2019-01-12 12:01:11 5303 1

原创 Git使用学习

一、初识 git1. 什么是gitGit是一个开源的分布式版本控制系统,可以有效、高速的处理从很小到非常大的项目版本管理。Git是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。2、分布式和集中式的区别集中式:    需要有台服务器安装服务端;    每个想要和服务端通讯的终端都需要安装该软件客户端。    每台计算机都通过...

2018-12-14 14:22:14 153

原创 Elastic Search 学习入门之restful的高级查询操作(九)

  REST简介:    RSET全称Representational State Transfer。是一种软件的架构风格,而不是标准,只是提供一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制,    其实说白了就是类似HTTP的访问,和HTTP非常的相似。    REST操作:    GET:获...

2018-12-13 12:21:56 953

原创 Elastic Search 学习入门之中文检索(八)

安装ik的方式:1.离线安装:    下载:https://github.com/medcl/elasticsearch-analysis-ik/tree/v6.5.0     解压到 $ES_HOME/plugins目录下面    遇到问题: 解决问题:     在elasticsearch-analysis-ik-6.5.0目录下需要使用mvn进行编译:mvn cl...

2018-12-12 11:31:49 291

原创 Elastic Search 学习入门之Search全文检索(七)

ES是基于Lucene的开源搜索引擎,其查询语法关键字部分和Lucene大致一样:分页: from/size、字段:fields、排序:sort、查询:query过滤:filter、高亮:highlight、统计:facetES的搜索类型有4种(以下说明是基于elasticsearch2.3):query and fetch (速度最快)(返回N倍数据量)     受保护,5.3之...

2018-12-10 21:15:31 966

原创 Elastic Search 学习入门之JavaAPI客户端操作(六)

1. 添加Maven依赖: &lt;dependency&gt; &lt;groupId&gt;org.elasticsearch.client&lt;/groupId&gt; &lt;artifactId&gt;transport&lt;/artifactId&gt; &lt;version&gt;6.5.0&lt;/version&gt;

2018-12-10 17:49:47 143

原创 Elastic Search 学习入门之插件安装(五)

ES本身服务相对比较少,其功能的强大之处就体现在插件的丰富性上。有非常多的ES插件用于ES的管理,性能的完善,下面就给大家介绍几款常用的插件。1.1-1.4是基于elasticsearch2.3来进行配置1.1 Elasticsearch-servicewrapper这里就先介绍一个插件用于ES的服务端管理——Elasticsearch-servicewrapper(绝大部分的插件都在git...

2018-12-10 11:13:56 188

原创 Elastic Search 学习入门之核心概念(四)

​​​​1.1 Cluster代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。ES的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看ES集群,在逻辑上是个整体,你与任何一个节点的通信和与整个ES集群通信是等价的。主节点的职责是负责管理集群状态,包括管理分片的状态和副本的状态,以及节点的发...

2018-12-10 11:09:23 212

原创 Elastic Search 学习入门之生产环境下node.master和node.data的设置(三)

在生产环境下,如果不修改elasticsearch节点的角色信息,在高数据量,高并发的场景下,集群容易出现脑裂等问题。默认情况下,elasticsearch集群中每个节点都有成为主节点的资格,也都存储数据,还可以提供查询服务。这些功能是由两个属性控制的。分别是node.master和node.data默认情况下这两个属性的值都是true。下面详细介绍一下这两个属性的含义以及不同组合...

2018-12-08 19:06:56 1414 4

原创 Elastic Search 学习入门之​​​​​​​ES的简单操作命令(二)

curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的,如果没有请yum安装即可。(以下操作均是基于ElasticSearch6.5.0版本的操作)    curl:-X 指定http的请求方法 有 HEAD  GET  POST PUT ...

2018-12-08 10:49:36 368

原创 Elastic Search 学习入门之​​​​​​​Elastic Search的安装配置(一)

ElasticSearch是什么普通的检索: 从网页/文章中,找到对应的关键字信息。搜索引擎:  通过关键字,找到对应的网页,为了实现这个搜索引擎,在检索过程汇总,关键字可能出现标题,正文,摘要等等,需要在相应的多个字段中添加索引。在数据库中检索的时候,使用like关键字,索引会失效,速度变慢。在搜索引擎中,为了提高检索效率,给多个字段添加索引的操作,称为全文索引。搜索引擎所使用的索引...

2018-12-06 19:58:21 251

原创 数据库使用QueryRunner模拟封装

模拟使用QueryRunner查询数据库:连接数据库的配置dbcp-config.properties:#连接设置driverClassName=com.mysql.jdbc.Driverurl=jdbc:mysql://localhost:3306/news_dbusername=rootpassword=root#&amp;amp;amp;lt;!-- 初始化连接 --&amp;amp;amp;gt;initialSize...

2018-12-05 12:43:59 305

原创 新闻网站大数据

本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。一、业务需求分析(一)捕获用户浏览日志信息(二)实时分析前20名流量最高的新闻话题(三)实时统计当前线上已曝光的新闻话题(四)统计哪个时段用户浏览量最高二、系统架构图设计三、系统数据流程设计四、集群资源...

2018-12-05 12:06:42 2282

原创 离线日志采集统计分析

flume采集 设置多源(监听多文件) 设置拦截器 设置avro-sink 设置flumeHA(failover)数据的清洗和处理(ETL):步骤: 1、数据仓库的设计 2、清楚最终的效果数据的清洗: 1. 选用框架: MR Hive SparkCore 2. 将原始数据转换为标准化的数据数据分析模块:次日留存率: 主要解决问题: 唯一用户外链TopN: 注意:广播TopNmysql导入hdfs统计: 使用SqoopUGC: 埋点获取

2018-11-27 16:33:49 824

smart_explore.zip

数据探查包

2021-09-12

发送邮件需要添加的对应的jars.zip

将文件解压直接放入打包后的jar包中即可,这样可以在打包时不用打包所有的依赖包

2019-06-27

Maven和Tomcat插件

创建Maven项目所需的插件,及打包Maven项目(源码包,全量包)的pom文件,下载Tomcat的pom文件

2018-12-14

使用elipse连接Hadoop

使用Eclipse去连接Hadoop集群所必须安装的插件,还可以在Window下的Eclipse来跑MapReduce任务

2018-12-14

JVM(Java虚拟机)

JVM(Java虚拟机)的整个流程:发展,运行区域,垃圾回收器,内存分配策略,垃圾收集,JVM分析工具,JVM优化

2018-12-14

大数据知识总结

大数据整个生态所有的组件总结,包括:Hadoop,Hive,Hbase,Sqoop,Flume,Kafka,Redis,Storm,Scala,Spark

2018-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除