由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频。
Mahout有很好的扩展性与容错性(基于HDFS&MapReduce开发),实现了大部分常用的数据挖掘算法(聚类、分类、推荐算法)不过数据挖掘调参和业务理解是关键,个人觉得真正想学习的话,还是看正规机器学习的课程比较好。
这里省略了大部分比较技术那一块的笔记。。。
虽然mahout在速度上有天然优势。但R/Python其实也在接入hadoop,如RHadoop等
而且正如[别老扯什么Hadoop了,你的数据根本不够大](http://geek.csdn.net/news/detail/2780) 这里提到的,在轻量级数据上,还是没有太大必要折腾hadoop,在hadoop上用mahout的前提应该是数据量非常大
不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有
仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊
一、课程概述
1、综合介绍
2、聚类算法
3、分类算法
4、推荐算法
二、聚类算法
聚类应用场景如新闻聚类(多少条与之相关)。最常用的是k-means聚类
基本流程应该是指定聚类次数,定位中心点,计算平均距离,最后实现产品分类。
在Mahout里
1、提取feature
对新闻正文分词,对词编码,如doc1有哪些词出现,转化为0-1多维向量
2、feature向量化,多维的向量
之前的多维向量浪费空间,需要换一种表达方式