mahout in action ----分类的原理

13.3  分类的原理 
      创建一个分类过程主要有两个阶段,   
     1. 通过学习算法产生的模型。
     2. 使用模型来指定新数据的类别。
     训练数据的选择、输出类别(目标)、通过该系统
学习的算法和作为输入的变量是第一阶段建立分类系统
的关键

                                                 分类系统原理图
上面一层表示对分类模型的训练,
下面一层表示对新来样本进行分类。

训练——测试——产生



13.2.2   分类的应用
      一个分类系统的输出是对于已确定的类集
的一个确定数据。(比如输出一个已经确定属
于哪一类的点)分类的效率表现在预测数据的
类别的准确性。通过制定数据的类别,分类系
统允许计算机或用户再输出。
     分类通常用于预测或检测。
     预测是依据可用的数据正确的指定一个类别,
而不是根据数据已有的特点来确定的。一般来说,
数据的特点不用来作为指定类别的依据是因为正
确的获取该特点需要的成本比较大,这就是分类
作为一个预测者的重要性。
     分类是这样一种算法,它利用一系列简单容易
获取的变量来得到一个有较高价值的变量。


13.2.1  分类与推荐、聚类的区别
      聚类是依据事务自身已有的重要特点去判
断它,(用机器学习的概念来说,就是它是一种
无监督的学习算法),而分类算法是需要通过学
习模仿样本,然后再做出正确的判断的。(是一
种监督式的学习算法)
     分类算法与推荐算法也有不同,是因为分类
算法只给出基于很有限的一个结果集里的一个简
单的判断,而推荐算法选择并列出好多可能的选
择。
     记住:有一种判断一个算法是否是分类算法的
办法是记住什么不是分类算法。如果你的系统是无
监督的,那么这就不是分类。如果你的问题是开放
式的,或者你的答案不是绝对的,那么这也不是分
类。
     惊奇的是,通常使用分类器来构建一个推荐系统。

13.2   分类系统的基本原理
       

     分类算法的核心是所谓的预测分析。这个预测分析的

目标是构建一个可以学习人类判断的自动化系统。分类

算法是一种实现这一目标的基本的工具。

     预测分析的一个例子是垃圾邮件的检测。计算机通过记

住用户的邮箱使用历史和细节特点等,来确定新邮件消息是

垃圾邮件还是用户要接收的正常邮件。另一个例子是信用卡

欺诈的检测。计算机通过用户最近的使用历史和当前事务的

详细信息来确定新来事务是否是欺骗性的。

     自动化系统需要先学习样本。

     定义:计算机分类系统是一种机器学习,使用学习算法使计

算机在经验的基础上对事物作出判断,在这个过程中模仿人类思

维的某些形式。

     分类算法需要学习样本,但是这并不能完全取代人类的判断,

这是因为计算机的判断需要准备很精细的学习样本,也就是说

分类算法需要很精确的输入,不像其他一些使用mahout的情

况是一种基于监督式学习的一种计算机分类。


转载于:https://my.oschina.net/yuzh/blog/101171

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值