大数据
小糖宝
湖北的詹密 哈哈哈哈
展开
-
记一次spark 写入pgsql异常及解决
Spark 处理完后的DataFrame写入pgsql时报错:通过查看分区数,发现分区在100~500之间,因此写入时repation至10个分区,后来报错如下:最终调小 --num-executors 6解决。原创 2020-05-13 11:22:00 · 1158 阅读 · 2 评论 -
Flume原理详解(好文)
Flume(一)Flume原理解析 转载地址:https://www.cnblogs.com/zhangyinhua/p/7803486.html#_label0 阅读目录(Content)一、Flume简介二、Flume特点三、Flume的一些核心概念3.1、Agent结构 3.2、source3.3、Channel3.4、Sink四、...转载 2019-03-19 15:23:03 · 222 阅读 · 0 评论 -
算法小白的第一次尝试---DBCSAN实现(手撕)
import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSessionimport scala.collection.mutableimport scala.collection.mutable.ArrayBuffer/** * @author XiaoTangBao * @date 2019/...原创 2019-04-10 22:05:13 · 10006 阅读 · 7 评论 -
算法小白的第一次尝试---PCA(主成分分析)降维【适合各种纬度数据】
import breeze.linalg.{Axis, DenseMatrix, eigSym, sum} import org.apache.log4j.{Level, Logger} ...原创 2019-04-16 13:28:28 · 11350 阅读 · 0 评论 -
算法小白的第一次尝试---LDA(线性判别分析)降维 【适用于任何维度】
import breeze.linalg.DenseMatriximport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.{LabeledPoint,VectorAssembler}import org.apache.spark.ml.linalg.Vectorsimport org.apache.s...原创 2019-04-24 22:35:30 · 10190 阅读 · 0 评论 -
Spark处理csv文件和Parquet文件速度对比
转载1:https://www.jianshu.com/p/8fd4b48bf604转载2:https://www.cnblogs.com/piaolingzxh/p/5469964.html笔者在项目中发现,100万条记录,字段数100个左右时,原始数据为CSV文件,进行处理时,I5 cpu ,8G的内存需要1h,将其转化为Parquet文件,进行处理时,仅需十分钟。Parquet不愧是Sp...转载 2019-06-28 19:42:24 · 1514 阅读 · 0 评论 -
如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory
转载源:https://blog.csdn.net/yolohohohoho/article/details/88056381转载 2019-08-02 10:32:34 · 275 阅读 · 0 评论 -
基于Spark2.0 RandomForest(cv验证) 规范化流程
转载:https://www.cnblogs.com/wwxbi/p/6222356.html?utm_source=itdadao&utm_medium=referral转载 2019-08-12 15:18:22 · 300 阅读 · 0 评论 -
运行在YARN上的Spark程序的Executor,Cores和Memory的分配
转载地址:https://www.jianshu.com/p/3716ade93b02转载 2019-09-20 16:59:58 · 216 阅读 · 0 评论