【机器学习课程-华盛顿大学】：1 案例研究 1.3 分类（1）概念描述

最新推荐文章于 2019-09-27 20:19:56 发布

有石为玉

最新推荐文章于 2019-09-27 20:19:56 发布

阅读量312

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41770169/article/details/80407598

版权

机器学习专栏收录该内容

63 篇文章 5 订阅

订阅专栏

根据“餐馆评价分类”案例引出要学习的分类算法。

一、分类模型

1、比如一个智能的餐饮推荐系统：

给出美食打分，给出排名，并且用一句最棒的话评论美食：

2、分类应用

（1）2分类：情感分析

（2）多分类：网页主题分类

（2）2分类：垃圾邮件分类

（4）图像多分类：狗狗类别分类

（5）医疗应用：身体状况监测

根据体温、x光片、检测结果、DNA、生活习惯等，预测健康状况。

（6）读懂人脑

3、线性分类器

（1）阈值分类器

提前统计好评有哪些词，差评有哪些词。当新的评论来时，统计好评、差评词出现的次数，如果好评的词>差评的词：评价就为好评；否则为差评。

阈值分类器的缺点：

1）好评词、差评词的列表从哪获得呢？途径是个问题。

2）词的感情程度不一样，因此权重也不一样。比如：good，great, amazing这三个词，程度不一样。

3）另外，当好评词前加否定前缀，就又变成差评了。比如：not good，这种情况也要解决。

（2）线性分类器

举例：

线性分类器总结：

称为线性分类器的原因：输出是输入的加权和。

4、决策边界

（1）对于线性分类器来说：

2维分类的决策边界：直线

3维分类的决策边界：平面

更多维分类的决策边界：超平面

（2）对于分线性分类器来说：更复杂的决策边界

二、模型评估

1、训练分类器和评估

（1）训练分类器：学习权重的过程

（2）评估

统计正确、错误分类的次数

评估指标：

error = 错误分类的次数/总次数，accuracy = 正确分类的次数/总次数

error + accuracy = 1.0

2、什么是好的正确率accuracy？

起码要大于随机猜测的概率。k分类，则正确率要>1/k。

注意是否为类别不平衡问题，如果这样的话，正确率很高不一定说明分类效果已经很好。比如：全世界90%的邮件可能是垃圾邮件，你的垃圾邮件分类正确率90%，这样也不是好的分类器。

3、FP、FN和混淆矩阵

（1）错误分类

（2）错误分类带来的危害

（3）混淆矩阵举例

二分类

多分类

4、学习曲线

测试误差：对模型来说，即使数据无限多，但是还是有误差

5、分类概率

三、总结

1、模型总结

2、测试

（1）高准确率不一定是一个好模型：垃圾邮件分类的例子，垃圾邮件本身概率为90%，即使正确率达到90%，分类器也不是好的。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习课程-华盛顿大学】：1 案例研究 1.3 分类（1）概念描述

根据“餐馆评价分类”案例引出要学习的分类算法。一、分类模型1、比如一个智能的餐饮推荐系统：给出美食打分，给出排名，并且用一句最棒的话评论美食：2、分类应用（1）2分类：情感分析（2）多分类：网页主题分类（2）2分类：垃圾邮件分类（4）图像多分类：狗狗类别分类（5）医疗应用：身体状况监测根据体温、x光片、检测结果、DNA、生活习惯等...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。