闲人木东-CSDN博客

原创使用spark的api读取mongo版本不兼容问题

spark版本2.1.1mongo版本3.6.11使用spark的api读取mongo有NoSuchMethod等此类错误。val spark = SparkSession.builder() .master("local") .appName("MongoSparkConnectorIntro") .config("spark.mongodb.input.uri", "mo...

2019-11-01 18:24:14 194

原创 spark jar包瘦身

最近因为现场工程部署需要，需要上传jar包到云盘，结果多个spark的工程的jar包超过了2G的上传上限。就在考虑优化方案，后发现spark的核心公用包是可以被剔除的。由于工程结构为maven项目，所以只是针对maven项目。方法如下：修改代码工程的pom文件，将spark相关的dependency的scope修改为provided例如：一下依赖都可改为修改为provided...

2019-07-16 15:47:37 509

原创 maven编译项目时提示：cached in the local repository

今天使用命令mvn compile编译maven项目时提示错误信息，部分错误信息如下：...... was cached in the local repository, resolution will not be reattempted until the update interval of nexus ......定位结果：因为需要使用的greenplum数据库，所以使用了驱动包...

2019-05-23 16:38:15 519

原创数据存储单位大小

数据存储单位大小，从大到小排序！附：进制单位全称及译音mega, [兆]，M. 10^6,giga, [吉]咖, G. 10^9,tera, [太]拉, T. 10^12,peta, [拍]它, P. 10^15,exa, [艾]可萨, E. 10^18,zetta, [泽]它, Z. 10^21,yotta, [尧]它, Y. 10^24 ...

2018-12-17 14:03:10 3977

转载 spark性能调优之广播大变量

广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化出来。这意

2017-11-28 15:03:14 409

转载 Python学习-Python数据类型

整数Python可以处理任意大小的整数，当然包括负整数，在程序中的表示方法和数学上的写法一模一样，例如：1，100，-8080，0，等等。计算机由于使用二进制，所以，有时候用十六进制表示整数比较方便，十六进制用0x前缀和0-9，a-f表示，例如：0xff00，0xa5b4c3d2，等等。浮点数浮点数也就是小数，之所以称为浮点数，是因为按照科学记数法表示时，一个浮点数的小数点位置

2017-10-27 11:25:23 232

原创常用的spark数据读取和保存

个人收录自己常用的集中数据保存和读取方式1、从外部读取数据之textFile 读取var departmentData = getLoadDepartment(sqlCon,"hdfs://cnsz17pl1443:8020/spark/ddt/ASRUA_TM_DEPARTMENT") def getLoadDepartment(spark: SparkSession,

2017-10-26 11:03:02 837

转载 spark是什么及体系概述

Spark初见Spark是一个基于内存的开源计算框架，于2009年诞生于加州大学伯克利分校AMPLab（AMP：Algorithms，Machines，People），它最初属于伯克利大学的研究性项目，后来在2010年正式开源，并于 2013 年成为了 Apache 基金项目，到2014年便成为 Apache 基金的顶级项目，该项目整个发展历程刚过六年时间，但其发展速度非常惊人。正由于Sp

2017-10-11 10:33:56 585

原创 ubantu下安装f.lux

我个人一直觉得能够大量被使用的东西不一定最好的，但一定是最省事省时间的。在ubantu下安装f,lux这个事情把我恶心不小。1、到官网网站找到flux的地址https://launchpad.net/ubuntu/+ppas2、搜索f.lux 找到f.lux GUI地址，执行语句。sudo add-apt-repository ppa:nathan-renniewaldo

2017-05-31 14:26:20 397

转载什么是高内聚、低耦合？

什么是高内聚、低耦合？起因：模块独立性指每个模块只完成系统要求的独立子功能，并且与其他模块的联系最少且接口简单，两个定性的度量标准――耦合性和内聚性。耦合性也称块间联系。指软件系统结构中各模块间相互联系紧密程度的一种度量。模块之间联系越紧密，其耦合性就越强，模块的独立性则越差。模块间耦合高低取决于模块间接口的复杂性、调用的方式及传递的信息。耦

2017-02-14 11:23:09 320

csv拆分工具.rar

有很多csv文件比较大，一次解析不太现实，只有通过将大文件拆分后在进行细分解析。这个工具就是用来做大体积csv文件拆分的。

2020-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人