- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 Hadoop之深入MapReduce编程
前面已经介绍个几个MapReduce的例子,那个Hello world是最基础的,MapReduce Join篇写了怎么实现Map端和Reduce端的做法,还有个semi-join没有写出来,其实semi-join可以看做是两者的结合,所以没有做说明。MapReduce编程模型需要多写,多实践,比较多写笔下生花,只有遇到的坑多了,一会就没那么容易掉到坑里面,正所谓常在坑里走,哪有不被坑呢,。这不,
2016-02-22 16:26:44 1088
原创 数据仓库---JPivot连接MySQL VS PostgreSQL
JPivot是一个基于mondrian(OLAP分析服务)的可钻取web报表展示标签,形成了整套的较方便的数据仓库主题web展现工具。话说JPivot已经很久没有更新了,作为小规模的应用,试试可以,但是要做为产品,貌似还差太多。下面以JPivot连接Mysql VS PostgreSQL做个简单的例子,以比较两个数据库有什么差别,作为分析比较之用。数据准备1. 建立数据库和表CREAT
2016-02-18 11:40:05 2039
原创 数据分析---最小二乘法和梯度下降法
最近在整理数据优化方面的知识,看的多了最小二乘法和梯度下降法之类的词语经常出现,很多算法都有用到类似方法,或者很多算法看起来和这些似曾相识,比如BP神经网络,支持向量机,等等分类回归方法。可见这最小二乘法和梯度下降法是很基础的方法,很值得好好复习下,不然很多东西剪不断,理还乱。 首先科普下,这两个基本的慨念,怕自己忘记了。 最小二乘法(又称最小平方法)是一种数学优
2016-02-15 16:06:29 8953
原创 Mahout系列之核心功能实践
上次已经说到了Mahout的计算项目模块mahout math。这里面包含了很多常用的数学计算或者统计方面的东西,有很多东西可能会用到,所以对这些基础的需要有很好的理解。CommandCommentDetail arff.vector从ARFF文件产生向量 Generate Vectors from an ARFF file or di
2016-02-14 16:50:28 1715
原创 Mahout系列之推荐引擎核心源码
Mahout里面的推荐包括了常见的方法和多种扩充的方法,对推荐的模型做了很好的封装。下面我们就来一起读读源码,读读更健康!下载Mahout,本文用到的是apache-mahout-distribution-0.11.0。项目主要包括的子项目有:项目说明mahout-examples 很多关于Mahout的实例
2016-02-06 11:07:06 2460 1
原创 Mahout系列之推荐算法-基于物品协同过滤实践
上文已经说明了用户的协同过滤,这篇也来谈谈基于物品的协同过滤。$ mahout recommenditembased -s SIMILARITY_LOGLIKELIHOOD -i /user/hadoop/recommend/recommandtestdata.csv -o /user/hadoop/recommend/result --numRecommendatio
2016-02-02 12:55:40 3482
原创 Mahout系列之推荐算法-基于用户协同过滤
Mahout的一大特色就是包含了推荐算法,里面包括了多种常见的算法,下面我们来分析分析。针对基于用户行为数据的推荐算法一般称为协同过滤算法。协同过滤算法有基于领域(neighborhood-based)的方法,隐语义模型(latent factor model)的方法,基于图的随机游走(random walk on graph)算法。目前用的最多的就是基于领域的方法,基于领域的算法里面主要有基
2016-02-02 11:54:06 1310
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人