【译】mahout in action 1.4 分类Classification

分类技术决定一个东西是不是某个类型或种类的一部分,或者有没有某些属性。分类同样是普遍存在的,虽然这是更多的幕后工作。这种系统问题通常是通过对目录中的项目,很多例子的回顾来了解,从而推断出分类的规则。这里大致可以发现很多应用程序:

雅虎邮件,决定收到的消息是否是垃圾邮件,这基于用户之前的电子邮件和垃圾邮件报告,和电子邮件本身的特性一样。一些被分类为垃圾邮件的信息将会在图1.4中显示。

Picasa(http://picasa.google.com/)和其他一些相片管理应用程序,可以从一个图像中识别出一个人的脸部。

光学字符辨识软件,通过把小范围的已扫描的文本分割成若干个小单元格的个体,来分成单字。

Apple在报道的iTunes中的天才特性,就是用分类技术为用户把歌曲分成潜在的播放列表。

[img]http://dl.iteye.com/upload/attachment/425167/9db75068-cb8a-3c0f-95d4-52f86db22ec9.png[/img]
图1.3 雅虎邮件发现的垃圾邮件信息
基于用户的垃圾邮件报告,加上其他的分析,系统已经获得了通常用来辨认垃圾邮件的某些属性。例如,在“viagra”提到的信息经常是垃圾邮件,通常的拼错的如“v1agra”中也是这样。这样例子的存在是一个例子的一个属性,这个属性是从一个垃圾邮件分类器可以获得的。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值