Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。
常见的三个领域:
- 协作筛选(CF)
- 集群
- 分类
协作筛选/CF:
CF 应用程序根据用户和项目历史向系统的当前用户提供推荐。生成推荐的 4 种典型方法如下:
- 基于用户:通过查找相似的用户来推荐项目。由于用户的动态特性,这通常难以定量。
- 基于项目:计算项目之间的相似度并做出推荐。项目通常不会过多更改,因此这通常可以离线完成。
- Slope-One:非常快速简单的基于项目的推荐方法,需要使用用户的评分信息(而不仅仅是布尔型的首选项)。
- 基于模型:通过开发一个用户及评分模型来提供推荐。
所有 CF 方法最终都需要计算用户及其评分项目之间的相似度。
对于大型数据集来说,无论它们是文本还是数值,一般都可以将类似的项目自动组织,或集群,到一起。
与 CF 类似,集群计算集合中各项目之间的相似度,但它的任务只是对相似的项目进行分组。
流行的方法包括 k-Means 和分层集群。
分类(通常也称为归类)的目标是标记不可见的文档,从而将它们归类不同的分组中。