【译】mahout in action 1.3 聚类Clustering

聚类的出现不太出名,但同样是重要的内容。正如它的名字意味着聚类技术试图把大量的事情聚集起来形成群集以便来分享它们的相似点。这是一种在大型的或者很难理解的数据集合中发现层次结构和规则的方法,用这种方法可以揭示有趣的模式或形成易于理解的数据集合。

谷歌新闻中心为了使介绍的新闻需要按逻辑模式来分类,而不是按一个包含所有文章的未加工的列表。因此他们运用聚类技术,根据文章主题来分组各类新闻。图1.3将会在下面举例说明。

像clusty group这样的搜索引擎搜索类似的原因。

客户可能被这种技术聚类,有可能是根据如:收入状况,地点,购买习惯等属性分成几个片段。

[img]http://dl.iteye.com/upload/attachment/424973/9da1e256-063d-3598-80c8-209ee0c628ac.png[/img]
图1.3一个来自于谷歌新闻中心的新闻分类样本。
这是一个来自于一篇典型故事的详细片段展示,并根据有此主题的群里的其他一些相似的故事联系起来。这也是很方便的,将其它所有的故事联系按照这样一个主题聚集在一起。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值