自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Spark JSONrdd和Dataframe的互相转换

背景在项目中,自定义数据采集以及为下游sink提供结构化的数据的需求,目前主要采用dataframe和JSON互相转换从而便于数据的分析。1、JSON字符串转dataframe首先需要了解json对应于dataframe的数据类型:json dataframe int long array array object struct 测试j...

2020-01-06 11:24:16 2790

原创 Python之Paramiko方法封装(SFTPClient 篇)

Paramiko简介:Paramiko是基于Python(2.7,3.4+)版本实现和封装了SSHv2协议,底层是用cryptography实现,我们如果希望远程登录主机或者远程下载或者上传文件到远程主机都可以使用该库实现。Paramiko属于第三方python库,需要我们使用pip进行安装,如果是离线需要在有网络的环境下载好whl文件,再到对应的离线环境进行安装。主要功能:类似于...

2019-07-12 15:10:42 10070 1

原创 Spark core算子aggregateByKey实例

groupbykey、reducebykey以及aggregateByKeygroupbykey是全局聚合算子,将所有map task中的数据都拉取到shuffle中将key相同的数据进行聚合,它存在很多弊端,例如:将大量的数据进行网络传输,浪费大量的资源,最重要的是如果数据量太大还会出现GC和OutOfMemoryError的错误,如果数据某个key的数据量远大于其他key的数据,在进行全局...

2018-12-20 14:20:36 487

原创 Spark Core 和 Spark SQL 实现分组取Top N(基于scala)

分组取Top N在日常需求中很多见:每个班级分数前三名同学的名字以及分数 各省指标数量前三的市的名字等等需求,主要思想就是在某一个分区(班级,省)中取出该分区Top N的数据测试数据格式:如上图,字段含义为,班级,学生姓名,分数下面我们通过一个Demo来实现各班级分数前三的学生姓名以及分数1、通过Spark core 实现://读取测试数据保存为rdd...

2018-07-05 17:59:02 5957

原创 大数据Linux基本命令四

shell编程:shell概述:Shell是一个功能强大的编程语言,易编写,易调试,灵活性较强Shell是解释执行的脚本,在shell中可以直接调用Linux系统命令shell基本格式代码写在普通文件中,通常以.sh结尾1 #!/bin/bash 表示用哪一种shell解释器来解释执行我们的这个程序2 写完保存退出shell执行方式sh方式sh .sh 直接...

2018-02-21 18:44:49 994

原创 大数据Linux基本命令三

软件包管理:RMP包管理:功能:安装:将软件从包中解出来,并且安装到硬盘卸载:将软件从硬盘清除升级:替换软件的旧版本查询:查询软件包的信息RPM包有依赖性 安装有依赖关系的多个软件时。被依赖的软件包需要先安装 同时指定多个.rpm包文件进行安装 ...

2018-02-21 18:35:38 377

原创 大数据Linux基本命令二

vim编辑器(文本编辑器):vi可以执行输出、删除、查找、替换、块操作等众多文本操作。而且用户可以根据自己的需要对其进行定制vi的工作模式命令模式中的基本操作插入命令:i:再当前字符的左边插入I:在当前行首插入a:再当前字符的右边插入A:在当前行尾插入o:在当前行下面插入新行O:在当前行上面插入新行删除命令:dd:删除当前行ndd:删...

2018-02-13 12:08:45 687

原创 大数据Linux基本命令1

linux分区:主分区:用于存储数据1个linux系统最多有4个主分区,主分区不能再分。扩展分区:只能有一个,主分区加扩展分区一共只能有4个,扩展分区不能存储数据,必须化分成几个逻辑分区。逻辑分区:用于存储数据,逻辑分区的数量不限但是总大小小于等于父级扩展分区的大小。目录层次结构:/:linux的文件系统的入口就是/,所有的目录、文件、设备都在/之下,/就是linux文件系...

2017-12-05 20:00:01 972

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除