基本概念—监督与非监督

本文介绍了监督学习和非监督学习的基本概念。监督学习是通过已有的训练数据集,学习一个模型来预测未知数据的输出,如泰坦尼克号生存预测问题。非监督学习则是在无标签数据的情况下,寻找数据内在的结构和规律,如聚类算法在新闻主题分类中的应用。监督学习包括分类和回归任务,而非监督学习则侧重于发现数据的隐藏模式和群体结构。
摘要由CSDN通过智能技术生成

原文作者:python猫娘

原文地址:监督学习与非监督学习

 

一、监督学习(supervised learning)

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。即:利用训练数据集学习一个模型,再用模型对测试样本集进行预测。例如kaggle上的泰坦尼克号比赛。

 

​官方提供旅客数据——数据集1(姓名,年龄,性别,社会经济阶层,是否生存等),要求参赛选手建立一个预测模型来回答“另外418名乘客是否会生存?”这是一个典型的监督学习(supervised learning)的例子。因为该训练资料有输入物件(姓名,年龄,性别,社会经济阶层等)和预期输出(是否生存)。有无预期输出是监督学习(supervised learning)非监督学习(unsupervised learning)的区别

我们的任务是根据数据集1建立一个预测模型(model),即学习算法(learning algorithm)。这个过程称为“学习(learning)”或“训练(training)”。由于我们得到的学得模型只是接近了数据的某种潜在规律,因此被称为‘假设(hypothesis)’。相对应的,潜在规律自身则被称为‘真实(ground-truth)’。学习的目的就在于找到最好的‘假设(hypothesis)’。用学习算法(learning algorithm)对数据集2的每个实例(姓名,年龄,性别,社会,社会经济阶层等)进行判断——‘是否能生存?’。

这是一个二分类任务(输出为‘生存’或‘死亡’两个维度)。如果所需结果为‘生存’,‘半生半死’或‘死亡’等多个维度,则为多分类任务。如果所需结果为生存率(0~1),则为回归任务(输出结果为连续值)。

分类问题(离散)与回归问题(连续)等都是监督学习。

分类问题:

 

回归问题:

 

二、非监督学习(unsupervised learning)

非监督学习(unsupervised learning)为直接对数据进行建模。没有给定事先标记过的训练范例,所用的数据没有属性或标签这一概念。事先不知道输入数据对应的输出结果是什么。自动对输入的资料进行分类或分群,以寻找数据的模型和规律。如聚类算法:针对数据集,自动找出数据中的结构,从而把数据分成不同的簇。例如:谷歌新闻利用聚类算法把不同的主题放在一起。

无监督学习(unsupervised learning)的优点:由于没有标准的分类方法,有可能从数据中挖出启发与亮点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值