redpoll
coderplay
这个作者很懒,什么都没留下…
展开
-
SVM的并行化
目前我在SVM的并行化方面已经有解法. SVM在数学上的本质是凸优化理论, 可以有很多种解法。 它的问题具有对偶性, 从原问题出发和从对偶问题出发。传统SVM在大数据集下,它的核矩阵要占用的内存非常大,呈平方地递增。 也就是说1000个数据占用的内存会是100个数据占用的内存的100 倍。为了解决此问题,涉及到SVM的分解,极端的情况下是使用SMO算法,这也是目前SVM最流行的解法。 SMO算法每...2009-03-10 13:33:02 · 1934 阅读 · 0 评论 -
canopy-clustering执行顺序
好记性不如烂笔头,记一下: NetflixDataPrep(准备数据) -> NetflixCanopyMaker(产生canopy中心) -> NetflixCanopyData(分配所有点到各canopy) -> NetflixKMeansIter(进行k-means聚类)假设数据记录条数为n, 第二步产生的canopy数量为c, 那第三步计算量则为 n * c,就算用了map...2008-05-08 14:08:59 · 96 阅读 · 0 评论 -
popular clustering techniques
k-Means, k-Medoids, Kernel Clustering, Spectral Clustering (uses eigenvectors), Gravitational Clustering, Canopy Clustering, Self-Organizing Maps, Expectation Maximization, AGNES, CLARA, DBSCAN, DIANA...2008-04-27 13:24:58 · 198 阅读 · 0 评论 -
关于redpoll中使用mahout模块,而没有沿用其中算法的解答
接到mail, 公布出来省得再有提问 :) 首先, 我要实现的canopy和kmeans算法都是固定的,本来我不必要重新实现这些算法。我是暂时加入mahout-*.jar,因为里面的SparseVector,省得我再去实现一遍。但我没用其中的算法, 因为我去年就发现mathout的实现有以下以个问题: 1.它的CanopyMapper默认读取的是SparseVector.asFo...2008-11-07 19:03:37 · 94 阅读 · 0 评论 -
hama -- a parallel matrix computational package
Today, I accidently found an interesting stuff, which may help us operating large scales of data sets for redpoll. This is a matrix computational library based on hadoop hbase.http://code.google.c...2008-04-02 01:42:57 · 105 阅读 · 0 评论 -
redpoll and mahout
Days before, I've submitted an application to participate in Apache Mahout and at this time, have got a reply from the guru of this project. It inspired us with lots of courages. We decided that if I...2008-04-02 01:20:33 · 99 阅读 · 0 评论 -
redpoll is launched
We are pleased to introduce a new open source proejct today. It's another machine learning library using hadoop besides the mahout of ASF(Apache Software Foundation). The name of this project is redpo...2008-03-23 14:30:32 · 118 阅读 · 0 评论 -
并行支持向量机
学校开题的东西,分享一下。2009-04-13 12:48:50 · 286 阅读 · 0 评论 -
用户推荐Slope One算法与mapreduce&hive实现
下载本文代码用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。本文要描述的Slope One算法是一种对评分进行预测...2009-09-14 20:23:58 · 258 阅读 · 0 评论 -
关于canopy聚类的几点思考
1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。4. 根据canop...2008-05-10 12:47:29 · 332 阅读 · 0 评论