自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark-GraphX图计算

2020-07-24 11:56:46 151

转载 线性降维算法简介及PCA主成分分析

降维方法分为线性降维方法和非线性降维方法: 在说降维之前首先要知道维度,维度的目的是用来进行特征选择和进行特征提取,特征选择是选择重要的特征子集,删除其余特征;而特征提取是由原始特征提取形成较少的新特征。在特征提取中,我们要找的是n个新的维度的集合,这些维度是由原来的维度结合而成的,当然,该方法可以是监督的(lda线性判别分析),也可以是非监督的(pca主成分分析)。 ...

2018-08-24 15:38:38 1586

转载 storm集群配置详解

以下是从storm的config类中搜集的所有storm支持的配置项(Based storm 0.6.0): 配置项 配置说明 storm.zookeeper.servers ZooKeeper服务器列表storm.zookeeper.port ZooKeeper连接端口storm.local.dir storm使用的本地文件系统目录(必须存在并且storm...

2018-08-23 15:33:38 187

转载 机器学习框架简述

机器学习框架意味着一个能够整合包括机器学习算法在内的所有机器学习的系统或方法,使用户最有效的使用它们。具体来讲,这包括数据表示与处理的方法、表示和建立预测模型的方法、评价和使用建模结果的方法。 在所有可用的机器学习框架中,着重于迭代算法和交互处理的框架被公认为是最好的,因为这些特性可以促进复杂预测模型估计和研究人员与数据间的良好交互。当下,优秀的机器学习框架依旧需要包含大数据功能...

2018-08-22 14:16:56 4302

关于Spark数据倾斜的优化

在shuffle操作的时候,是按照key来进行value的数据的输出,拉取和聚合的,同一个key的values,一定是分配到同一个reduce task进行处理的,假如多个key对应的value一共有90万条数据,但是可能某条key对应了88万条,其他key最多也就对应数万条数据,那么处理这88万条数据的reduce task肯定会特别耗费时间,甚至会直接导致OOM,这就是所谓的数据倾斜

2018-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除