自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 使用spark的api读取mongo版本不兼容问题

spark版本2.1.1mongo版本3.6.11使用spark的api读取mongo有NoSuchMethod等此类错误。val spark = SparkSession.builder() .master("local") .appName("MongoSparkConnectorIntro") .config("spark.mongodb.input.uri", "mo...

2019-11-01 18:24:14 192

原创 spark jar包 瘦身

最近因为现场工程部署需要,需要上传jar包到云盘,结果多个spark的工程的jar包超过了2G的上传上限。就在考虑优化方案,后发现spark的核心公用包是可以被剔除的。由于工程结构为maven项目,所以只是针对maven项目。方法如下:修改代码工程的pom文件,将spark相关的dependency的scope修改为provided例如:一下依赖都可改为修改为provided...

2019-07-16 15:47:37 499

原创 maven编译项目时提示:cached in the local repository

今天使用命令mvn compile编译maven项目时提示错误信息,部分错误信息如下:...... was cached in the local repository, resolution will not be reattempted until the update interval of nexus ......定位结果:因为需要使用的greenplum数据库,所以使用了驱动包...

2019-05-23 16:38:15 498

原创 数据存储单位大小

数据存储单位大小,从大到小排序!附:进制单位全称及译音mega, [兆],M. 10^6,giga, [吉]咖, G. 10^9,tera, [太]拉, T. 10^12,peta, [拍]它, P. 10^15,exa, [艾]可萨, E. 10^18,zetta, [泽]它, Z. 10^21,yotta, [尧]它, Y. 10^24    ...

2018-12-17 14:03:10 3968

转载 spark性能调优之广播大变量

广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存,在运行任务之前被反序列化出来。这意

2017-11-28 15:03:14 406

转载 Python学习-Python数据类型

整数Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如:1,100,-8080,0,等等。计算机由于使用二进制,所以,有时候用十六进制表示整数比较方便,十六进制用0x前缀和0-9,a-f表示,例如:0xff00,0xa5b4c3d2,等等。浮点数浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时,一个浮点数的小数点位置

2017-10-27 11:25:23 227

原创 常用的spark数据读取和保存

个人收录自己常用的集中数据保存和读取方式1、从外部读取数据之textFile 读取var departmentData = getLoadDepartment(sqlCon,"hdfs://cnsz17pl1443:8020/spark/ddt/ASRUA_TM_DEPARTMENT")  def getLoadDepartment(spark: SparkSession,

2017-10-26 11:03:02 835

转载 spark是什么及体系概述

Spark初见Spark是一个基于内存的开源计算框架,于2009年诞生于加州大学伯克利分校AMPLab(AMP:Algorithms,Machines,People),它最初属于伯克利大学的研究性项目,后来在2010年正式开源,并于 2013 年成为了 Apache 基金项目,到2014年便成为 Apache 基金的顶级项目,该项目整个发展历程刚过六年时间,但其发展速度非常惊人。正由于Sp

2017-10-11 10:33:56 579

原创 ubantu下安装f.lux

我个人一直觉得能够大量被使用的东西不一定最好的,但一定是最省事省时间的。在ubantu下安装f,lux这个事情把我恶心不小。1、到官网网站找到flux的地址https://launchpad.net/ubuntu/+ppas2、搜索f.lux 找到f.lux GUI地址,执行 语句。sudo add-apt-repository ppa:nathan-renniewaldo

2017-05-31 14:26:20 390

转载 什么是高内聚、低耦合?

什么是高内聚、低耦合?    起因:模块独立性指每个模块只完成系统要求的独立子功能,并且与其他模块的联系最少且接口简单,两个定性的度量标准――耦合性和内聚性。    耦合性也称块间联系。指软件系统结构中各模块间相互联系紧密程度的一种度量。模块之间联系越紧密,其耦合性就越强,模块的独立性则越差。模块间耦合高低取决于模块间接口的复杂性、调用的方式及传递的信息。    耦

2017-02-14 11:23:09 312

csv拆分工具.rar

有很多csv文件比较大,一次解析不太现实,只有通过将大文件拆分后在进行细分解析。这个工具就是用来做大体积csv文件拆分的。

2020-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除