![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 84
cbl709
这个作者很懒,什么都没留下…
展开
-
Hadoop运行包含第三方依赖库的MapReduce作业
本文来源于我的个人技术博客:www.chenbiaolong.com,欢迎访问概述最近打算学习一下利用hadoop搭建机器学习平台,因为mahout这个机器学习库资料比较多,因此就根据《mahout in action》这本书学习了一下如何搭建hadoop+mahout的机器学习平台。 由于mahout in action只是列出了部分代码,具体的环境搭建书上写的并不多。在编写依赖于mahout的原创 2015-04-02 15:33:51 · 7454 阅读 · 0 评论 -
Mahout in action分析维基百科数据例子(一)
本文来源于我个人博客www.chenbiaolong.com概要本文主要根据mahout in action第六章分析维基百科链接数据的例子编写。大部分内容是直接翻译的mahout in action,不过不是逐字翻译,加入了一些个人理解。关于本文的前提背景可以参考其他博主翻译的文章: Mahout in action 中文版-6.分布式推荐计算-6.1 Mahout in action 中文版原创 2015-04-03 17:36:04 · 1348 阅读 · 0 评论 -
Mahout in action分析维基百科数据例子(二)
本文来源于我的个人博客www.chenbiaolong.com概要这篇文章主要论述我在实现上一篇文章所述功能时的具体操作过程。因为hadoop现在有两套新旧API接口,因此在实现过程中需要十分注意你import进来的class是属于新的API还是旧的API。本文的所使用的hadoop版本是2.6版本。工程准备数据准备mahout in action用的是维基百科的数据,数据量较大,考虑到不便于验证我原创 2015-04-07 15:14:04 · 1256 阅读 · 0 评论 -
决策树学习(一)
本文来自我个人博客:www.chenbiaolong.com概述决策树学习是一种逼近离散值目标函数的方法,简单来说它可以被表示为多个的if-then的规则表达式。在本文中先主要介绍决策树的基本概念,主要包括熵的概念以及如何选择最优的数据集划分方式 数据准备这里我们使用《机器学习》(Tom M.Mitchell著)中的例子作为分析的数据源。这颗决策树根据天气情况分类“星期六上午是否适合打网球”。原创 2015-05-12 14:27:52 · 1065 阅读 · 0 评论 -
决策树学习(二)
本文来源于个人博客:www.chenbiaolong.com概述在上一篇文章中我们利用信息熵的概念找到了最优的划分属性,当然也是仅仅找到“一个”属性而已,虽然利用这个属性划分数据集有着最大的熵减。在现实的机器学习中是不可能只用一个属性就能将数据分类的,因此本文将在上一篇文章的基础上真正构建一颗决策树。熵减越大的属性在该树的节点深度越浅。实现原理我们最终构建的决策树的形式大概如下: 这张图直接给出了原创 2015-05-13 13:48:59 · 899 阅读 · 0 评论