自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 PySpider API介绍

Pyspider API使用及参数介绍

2016-12-06 10:13:37 1429

原创 spark mLlib ALS 交替最小二乘

ALS 交替最小二乘ALS是alternating least squares的缩写 , 意为交替最小二乘法;而ALS-WR是alternating-least-squares with weighted-λ -regularization的缩写,意为加权正则化交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如:将用户(user)对商品(item)的评分矩阵分解为两个矩阵:一个是用户对商品隐

2016-08-11 16:46:21 1124

原创 spark 1.6 MLlib 协同过滤

简单介绍spark的协同过滤的矩阵分解采用ALS来计算,具体实现了算法以下参数 - numBlocks:数据划分为多少block进行并行计算,设置成-1时为自动配置 - rank:模型的潜在因子(主特征数目) - iterations:模型运行迭代次数 - lambda:ALS的规则化参数 - implicitPrefs:是采用显式评分方式还是隐式反馈数据,即是用户打分,还是用户访问等隐式

2016-08-11 16:45:33 622

转载 spark性能调优

案例1:背景介绍对一个容量为300g的客户信息表在spark上进行查询优化,该大宽表有1800多列,有效使用的有20列优化效果查询由原来的40.232s降低为2.7s优化过程使用压缩gzip:整个数据文件无法放置到内存,数据存在大量0和1的值,40s降低到20s使用行列混存rcfile、parquetfile:大宽表有1800多列,但是常用只是20列,20s降低到12s使用kyro序列化:CP

2016-08-05 16:53:48 439

原创 1. spark ML概述

ML组件ML的标准API使用管道(pipeline)这样的方式,可以将多个算法或者数据处理过程整合到一个管道或者一个流程里运行,其中包含下面几个部分: 1. dataFrame:用于ML的dataset,保存数据 2. transformer:将一个dataFrame按照某种计算转换成另外一个dataFrame,例如把一个包含特征的dataFrame通过模型预测,生成一个包含特征和预测的data

2016-06-16 17:24:39 1995

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除