Spark
小糖宝
湖北的詹密 哈哈哈哈
展开
-
记一次spark 写入pgsql异常及解决
Spark 处理完后的DataFrame写入pgsql时报错:通过查看分区数,发现分区在100~500之间,因此写入时repation至10个分区,后来报错如下:最终调小 --num-executors 6解决。原创 2020-05-13 11:22:00 · 1185 阅读 · 2 评论 -
算法小白的第一次尝试----出行模式分析(矩阵聚类,数据实战)
主要功能: 根据交通出行数据,通过刷卡记录,获取用户的所有出行od,以天为单位构建矩阵,对矩阵进行聚类主要采用了kmeans进行聚类,轮盘法(kmeans++思想)进行簇初始化,采用SSE(拐点)进行聚类效果评价kmeans++ 与kmeans参考该篇博客:https://www.cnblogs.com/wang2825/articles/8696830.htmlSSE选择最佳...原创 2020-05-06 18:36:15 · 2695 阅读 · 0 评论 -
Spark Caused by: java.io.NotSerializableException 序列化异常踩过的坑
https://blog.csdn.net/qq_28743951/article/details/86599918转载 2019-10-22 09:12:52 · 1431 阅读 · 0 评论 -
算法小白的第一次尝试---DBCSAN实现(手撕)
import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSessionimport scala.collection.mutableimport scala.collection.mutable.ArrayBuffer/** * @author XiaoTangBao * @date 2019/...原创 2019-04-10 22:05:13 · 10037 阅读 · 7 评论 -
算法小白的第一次尝试---PCA(主成分分析)降维【适合各种纬度数据】
import breeze.linalg.{Axis, DenseMatrix, eigSym, sum} import org.apache.log4j.{Level, Logger} ...原创 2019-04-16 13:28:28 · 11363 阅读 · 0 评论 -
算法小白的第一次尝试---KPCA(核主成分分析)降维【实例对比分析PCA、LDA和KPCA】
-------------------------------------------------------------------------------------笔者追求算法实现,不喜欢大篇幅叙述原理,有关KPCA理论推荐查看该篇博客https://blog.csdn.net/zjuPeco/article/details/77510981 PCA降维欢迎前往笔者上一篇博客:ht...原创 2019-04-29 16:18:18 · 13641 阅读 · 6 评论 -
算法小白的第一次尝试---LDA(线性判别分析)降维 【适用于任何维度】
import breeze.linalg.DenseMatriximport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.{LabeledPoint,VectorAssembler}import org.apache.spark.ml.linalg.Vectorsimport org.apache.s...原创 2019-04-24 22:35:30 · 10202 阅读 · 0 评论 -
intelij Idea下sbt项目依赖包冲突
原创 2019-06-27 17:30:34 · 4373 阅读 · 0 评论 -
Spark处理csv文件和Parquet文件速度对比
转载1:https://www.jianshu.com/p/8fd4b48bf604转载2:https://www.cnblogs.com/piaolingzxh/p/5469964.html笔者在项目中发现,100万条记录,字段数100个左右时,原始数据为CSV文件,进行处理时,I5 cpu ,8G的内存需要1h,将其转化为Parquet文件,进行处理时,仅需十分钟。Parquet不愧是Sp...转载 2019-06-28 19:42:24 · 1553 阅读 · 0 评论 -
如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory
转载源:https://blog.csdn.net/yolohohohoho/article/details/88056381转载 2019-08-02 10:32:34 · 291 阅读 · 0 评论 -
基于Spark2.0 RandomForest(cv验证) 规范化流程
转载:https://www.cnblogs.com/wwxbi/p/6222356.html?utm_source=itdadao&utm_medium=referral转载 2019-08-12 15:18:22 · 316 阅读 · 0 评论 -
运行在YARN上的Spark程序的Executor,Cores和Memory的分配
转载地址:https://www.jianshu.com/p/3716ade93b02转载 2019-09-20 16:59:58 · 232 阅读 · 0 评论 -
算法小白的第一次尝试---Kmeans (适用于任何维度数据)
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Row, SparkSession}import scala.c...原创 2019-03-18 21:54:34 · 10708 阅读 · 0 评论 -
算法小白的第一次尝试---多元线性回归
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.sql.types.{DoubleType, StructField, StructType}import org.apache.spark.sql.{DataFram...原创 2019-03-20 23:03:55 · 4727 阅读 · 0 评论 -
Spark性能优化--基础篇
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能...转载 2019-01-16 11:18:12 · 181 阅读 · 0 评论 -
最小二乘法---最详细的解释
http://blog.sina.com.cn/s/blog_7445c2940102wjz8.html#commentComment最小二乘法,又是一个即熟悉又陌生的名字。对于学工科的我,简直就是听着最小二乘长大的(汗。。。)。但是,之前碰到要用最小二乘法的时候,我采取的办法都...转载 2019-03-04 22:24:41 · 30808 阅读 · 11 评论 -
Spark Breez矩阵计算
import breeze.linalg._import breeze.numerics._import breeze.stats.distributions.Rand/** * @author XiaoTangBao * @date 2019/3/5 16:16 * @version 1.0 */object Breeze { def main(args: Array...转载 2019-03-05 16:24:37 · 5755 阅读 · 0 评论 -
算法小白的第一次尝试---PLA(感知机算法)实现
import breeze.linalg.DenseVectorimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.LabeledPointimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSess...原创 2019-03-06 10:59:20 · 9851 阅读 · 0 评论 -
手撕SVM公式
转载自:https://blog.csdn.net/Dominic_S/article/details/83002153 1.SVM作用对于给定的训练样本集D={(x1,y1), (x2,y2),… (xn,yn)},yi属于{-1,+1},希望能找出一个超平面,把不同类别的数据集分开,对于线...转载 2019-03-08 20:31:05 · 282 阅读 · 0 评论 -
算法小白的第一次尝试---AdaBoost(手撕)
特别警告:https://www.wandouip.com/t5i28437/ 希望该网站尊重原创,转载请标明出处。import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.LabeledPointimport org.apache.spark.ml.linalg.Vectorsimport org...原创 2019-03-09 22:37:39 · 9943 阅读 · 0 评论 -
算法小白的第一次尝试--LinearRegression
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.regression.{LinearRegression, LinearRegressionModel}import org.apache.spark.sql.{...原创 2019-03-04 16:13:14 · 9718 阅读 · 0 评论 -
Spark ml数据归一化
import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionimport org.apache.spark.ml.feature.Normalizerimport org.apache.spark.ml.feat...原创 2019-03-04 17:17:54 · 9984 阅读 · 0 评论 -
算法小白的第一次尝试---SVM实现
import org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.{BinaryClassificationMetrics, MulticlassMetrics}im...原创 2019-03-07 15:24:16 · 9690 阅读 · 0 评论 -
算法小白的第一次尝试---BoostingTree(手撕提升树)
import org.apache.spark.ml.feature.LabeledPointimport org.apache.spark.ml.linalg.Vectorsimport scala.collection.mutable.ArrayBuffer/** * @author XiaoTangBao * @date 2019/3/10 16:00 * @version...原创 2019-03-11 09:29:22 · 9753 阅读 · 0 评论 -
算法小白的第一次尝试---ID3实现决策树
package DecesionTreeimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.ml.feature.StringIndexerimport java.math._i...原创 2019-01-17 12:54:31 · 9357 阅读 · 0 评论