自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Cache与persist区别

Cache底层调用的是persist方法,存储等级为memory only Persist与Cache的主要区别是persist可自定义存储级别StorageLevel。Cache只使用memory only。 MEMORY_ONLY:只存在内存中; DISK_ONLY:只存在磁盘中; MYMORY_AND_DISK:先存在内存中,内存不够的话存入到磁盘中; OFF_HEAP:存在堆外内存中; 总...

2020-03-22 23:12:31 677

原创 Adboost与随机森林的对比

首先 我们看一下Boosting思想与Bagging思想 随机森林是在bagging模型下的 而Adboost是在boosting模型下的 Boosting是通过串行地构造多个个体分类器,然后以一定的方式将他们组合成一个强学习器 Bagging是Bootstrap Aggregating的缩写,通过并行地构造多个个体分类器,然后以一定的方式将他们组合成一个强学习器 这两个的主要区别就是 一个是串行...

2020-03-15 21:11:26 244

原创 Spark性能调优

开发调优 最基本的Spark性能优化,就是要优化你的代码。Spark中rdd内部的转换关系是一个DAG(有向无环图),只有出发了action 算子才开始计算。开始可以画出计算pipeline,写得多了脑子自然会形成计算的pipeline,在开发过程中,时时刻刻都要注意一些性能优化的基本原则。 原则一:避免创建重复的RDD,尽可能复用同一个RDD 对于同一份数据不要创建多个RDD,对不同的数据执行算...

2020-03-10 08:53:52 174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除