- 博客(5)
- 资源 (19)
- 问答 (4)
- 收藏
- 关注
翻译 如何通过分区来提高spark的性能(java代码)
RDD是Spark上最重要的概念。可以将RDD理解为是包含很多对象的集合,这些对象实质上是存储在不同的分区上的。当在RDD上执行计算时,这些分区能够并行执行。通过修改分区,我们能够有效的提高spark job的性能。下面通过一个简单的例子来说明下。 举例:找素数 假如我们想找出200万以内的所有素数。简单的方法是,我们可以先找出所有的非素数。然后对全部数字,执行清除所有这些非素数。剩下的就是素
2017-10-22 18:29:50 1054
原创 bandit算法(3)--UCB算法
引言前面已经介绍了两种bandit算法—ϵ\epsilon-greedy算法和softmax算法。现在我们来总结下这两种算法的共有属性:两种算法在每一轮选择时,默认都是选择到目前为止最好的臂;除此之外,算法会尝试去探索一些目前看起来不是最好的臂: -ϵ\epsilon-greedy算法探索的时候完全是随机的。 -softmax算法探索是基于到当前时刻臂的收益
2017-10-15 17:22:04 23518 3
原创 基于矩阵分解推荐算法之交替最小二乘法(ALS)--附实现代码
本文假定读者已经对以下内容有基本了解: 1) 协同过滤算法 2)基于模型的协同过滤算法;主要是基于矩阵分解的方法。知道如何将推荐和矩阵分解联系起来。 3)对矩阵分解有基本的认识本文的目的: 本人的博客一直强调应用,对于任何的算法,会侧重对它的工程应用的介绍。相关的原理,推到演练不会涉及太深。所以本文也不会涉及太多这些方面的内容。
2017-10-13 17:22:07 5553 3
原创 bandit算法(1)--epsilon-Greedy Algorithm(附代码)
简述 epsilon-Greedy算法(ϵ\epsilon-贪婪算法)算是MBA(Multiarmed Bandit Algorithms)算法中最简单的一种。因为是MBA算法介绍的第一篇,所以在这里还是先简单说明下MBA。当然,要解释MBA,首先就得EE问题(Explore-Exploit dilemma)。 什么是EE问题呢? 这两个”E”,其中一个代表“exploit”,中文可译作“
2017-10-12 23:00:43 22509
原创 推荐系统排序(Rank)评价指标总结
1.Mean Average Precision (MAP)AP=∑nij=1P(j).yi,j∑nij=1yi,jAP= \dfrac{\sum_{j=1}^{n_i}P(j).y_{i,j}}{\sum_{j=1}^{n_i}y_{i,j}} 其中, yi,jy_{i,j}:排序中第j个元素对于查询i是否是相关的;相关为1,不相关为0。 P(j)=∑k:πi(k)≤πi(j)
2017-10-05 17:07:36 24934
java网络编程
2015-02-10
datatools.connectivity
2014-11-02
Linux 从入门到精通
2012-04-29
嵌入式系统开发圣经
2012-04-21
编写自己的Shell解释器
2012-04-20
Linux核心手册
2012-04-20
Windows CE开发初步
2012-04-20
C语言程序实例
2012-04-19
arm入门笔记
2012-04-18
eclipse开发入门
2012-04-16
通过JDBC驱动连接Hive操作失败
2015-10-16
centos上通过rpm安装mysql失败
2015-10-14
python 打印不出任何信息
2015-04-28
jsoup解析网页时“www”变成“m”的问题
2015-02-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人