【机器学习课程-华盛顿大学】:1 案例研究 1.3 分类(1)概念描述

根据“餐馆评价分类”案例引出要学习的分类算法。

一、分类模型

1、比如一个智能的餐饮推荐系统:

给出美食打分,给出排名,并且用一句最棒的话评论美食:

2、分类应用

(1)2分类:情感分析

(2)多分类:网页主题分类

(2)2分类:垃圾邮件分类

(4)图像多分类:狗狗类别分类

(5)医疗应用:身体状况监测

根据体温、x光片、检测结果、DNA、生活习惯等,预测健康状况。

(6)读懂人脑

 

3、线性分类器

(1)阈值分类器

提前统计好评有哪些词,差评有哪些词。当新的评论来时,统计好评、差评词出现的次数,如果好评的词>差评的词:评价就为好评;否则为差评。

阈值分类器的缺点:

1)好评词、差评词的列表从哪获得呢?途径是个问题。

2)词的感情程度不一样,因此权重也不一样。比如:good,great, amazing这三个词,程度不一样。

3)另外,当好评词前加否定前缀,就又变成差评了。比如:not good,这种情况也要解决。

(2)线性分类器

举例:

线性分类器总结:

称为线性分类器的原因:输出是输入的加权和。

4、决策边界

(1)对于线性分类器来说:

2维分类的决策边界:直线

3维分类的决策边界:平面

更多维分类的决策边界:超平面

(2)对于分线性分类器来说:更复杂的决策边界

 

二、模型评估

1、训练分类器和评估

(1)训练分类器:学习权重的过程

(2)评估

统计正确、错误分类的次数

评估指标:

error = 错误分类的次数/总次数,accuracy = 正确分类的次数/总次数

error + accuracy = 1.0

 

2、什么是好的正确率accuracy?

起码要大于随机猜测的概率。k分类,则正确率要>1/k。

注意是否为类别不平衡问题,如果这样的话,正确率很高不一定说明分类效果已经很好。比如:全世界90%的邮件可能是垃圾邮件,你的垃圾邮件分类正确率90%,这样也不是好的分类器。

 

3、FP、FN和混淆矩阵

(1)错误分类

(2)错误分类带来的危害

(3)混淆矩阵举例

二分类

多分类

 

4、学习曲线

测试误差:对模型来说,即使数据无限多,但是还是有误差

 

5、分类概率

 

三、总结

1、模型总结

2、测试

(1)高准确率不一定是一个好模型:垃圾邮件分类的例子,垃圾邮件本身概率为90%,即使正确率达到90%,分类器也不是好的。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值