1.机器学习基础概念

QiuGuoJing

于 2019-04-02 00:01:33 发布

阅读量385

点赞数

分类专栏：机器学习与人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QiuGuoJing/article/details/88958529

版权

机器学习与人工智能专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据集的分类：

学习方式：监督学习、无监督学习、半监督学习

监督学习

监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。

监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息，对于神经网络，分类系统利用信息判断网络的错误，然后不断调整网络参数。对于决策树，分类系统用它来判断哪些属性提供了最多的信息。

常见的有监督学习算法：回归分析和统计分类。最典型的算法是KNN和SVM。

这里顺便区别一下什么是回归问题，什么事分类问题：

回归问题和分类问题都是针对一个输入做出一个输出预测，其区别在于输出变量的类型。
分类问题：给定一个新的模式，根据训练集推断它所对应的类别（如：+1，-1），是一种定性输出，也叫离散变量预测；
回归问题：给定一个新的模式，根据训练集推断它所对应的输出值（实数）是多少，是一种定量输出，也叫连续变量预测。

举个例子：预测明天的气温是多少度，这是一个回归任务；预测明天是阴、晴还是雨，就是一个分类任务。

无监督学习（unsupervised learning）

进行无监督学习时，输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。有监督学习和无监督学习的最大区别在于数据是否有标签。

　　无监督学习最常应用的场景是聚类(clustering)和降维(DimensionReduction)

　　聚类(clustering)：就是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的“相似性” ，通常使用的方法就是计算两个样本之间的“距离”。

半监督学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。