【译】mahout in action 2.1 什么是推荐器?

因为某种原因你从书架上取到这本书。也许你是在知道的其他书本,看到了这本书, 并觉的它有用。或者觉得书店把它放在这个位置,是因为喜欢这些书的人也喜欢这本书。也或许你在一个同事的书架上看到这本书,这位同事与你一样对机器学习很有兴趣。也有可能他可能直接推荐你看这本书。

在这一章,我们将会深入研究人们产生推荐,发现新事物的一些方法。当然还有这些进程,在软件中如何利用mahout实施.我们已经设计了一些方法:发现我们可能喜欢的项目,从而可以留心相似品味的人,看看他们喜欢的东西。换句话说,我们可以算出什么样的项目,会像我们以前喜欢的项目。另外我们可以通过留心观察其他人的选择。这些描述了推荐引擎算法的两个主要类别:“基于用户(user-based)” 和 “基于项目(item-based)”推荐器。

[size=large]2.1.1基于内容(content-based)的协同过滤推荐算法[/size]

严格的说,这里有协同过滤(CF)的例子。根据也只能根据,用户与项目的关系的知识,从而产生推荐器。这些技术并不需要识别项目本身的属性。这在某种程度上这是一个优势。推荐器框架根本不关心,这个项目是否是书本、主题公园、花、或者是其他的人,因为它们的属性中没有任何一个会被当作输入的。

这里有根据项目属性而成立的其他方法,通常被认为是“基于内容(content-based)”推荐算法。例如,如果有一个朋友把这本书推荐给你,是因为这是一本Manning出版书,这位朋友喜欢其他的Manning出版的书,那么这位朋友正在从事的事情,大概就是“content-based”推荐器算法。这个算法是依据这本书的一个属性:出版商。Mahout推荐框架不直接实施这种算法,虽然它提供了一些方法,把项目属性信息加入它的计算。同样的,它可能在技术上被认为是一个协同筛选框架。

这些算法没有问题;相反的是,它们同样可以表现的相当好。但是它们必要是特定领域的方法,试图编纂进一个框架将是相当困难的。建立一个有效的content-based书本推荐算法,人们将必须决定一本书中的哪个属性:页数,作者,出版商,颜色,字体,那个是有意义的,并达到那种程度。这种知识中没有一个是可以翻译成另外一个领域的;预定这种方式的推荐器,对选择那个是更好的披萨没有帮助。

也就是因为这个原因,Mahout将不会太多讨论这种形式的推荐器。这些观点被锁定在Mahout提供的事情中,并置入高阁;在本章将会举个例子,我们会为一个日期网站建立一个推荐器。在随后介绍的Mahout为基于协同过滤推荐算法进行的实施后,我们将会更详细的讨论它们与contene—based算法的关系。

[size=large]2.1.2 主流推荐算法[/size]
到目前为止,很多人可能已经了解到,如amazon或netflix这样的网站,在现实中实施的推荐算法:根据浏览和购买历史,网站会生产一个产品列表,它的推荐可能会吸引你。这种类型的推荐引擎自从1900就已开始出现,但直到最近它才进入大量的计算机研究领域,被精心设计和研究。随着这些技术变得越来越主流,对它们的要求也不断增加,提供的开源实现也同样如此。随着日益增加的,可理解的,低层本的运算能力,意味着推荐引擎正变的越来越易理解并广泛使用。

事实上,推荐技术对客户来说不仅仅是像DVD这类推荐的事物。这种方法通常估计大量众多的事物之间的相互关联。一个人可以用相同的技术把DVD推荐给客户,估计那个客户最有可能喜欢某个DVD.在一个社会网络中,一个推荐器可以把人推荐给别外一些人。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值