小张的机器学习笔记（一）_gm属于机器学习吗-CSDN博客

本文链接：https://blog.csdn.net/qq_36919342/article/details/107789161

一、引言

机器学习用于数据挖掘、无法用手编写程序的应用（自动直升机驾驶、手写体识别、自然语言处理、计算机视觉）、私人订制类程序、理解人类大脑与学习过程。

1.1 什么是机器学习

定义

计算机程序从经验E中学习，解决某一任务T，进行某一性能度量P，通过P测定在T上的表现因经验E而提高。
eg.当你给你点邮件标注哪些是垃圾邮件哪些不是后，你的邮件过滤器在面对新邮件时将其进行是否为垃圾邮件分类是任务T，你对垃圾邮件的标注是经验E。正确归类为垃圾邮件的比例是性能P。

分类

主要分为监督学习与无监督学习。
监督学习是人为教计算机学习，无监督是计算机自己学习。

1.2 监督学习

栗子

在这里插入图片描述
横轴是不同房屋平方英尺数，纵轴是不同房子价格单位为千美元。假设有一栋750平方英尺的房子,求房子能卖多少钱。学习算法用一条直线拟合数据，由此可以估算出房子大概价格。还可以用更好的算法如使用二次函数或者二阶多项式拟合数据。我们所做的工作就是选择是用直线拟合还是二次函数拟合。

定义

监督学习就是我们给算法一个数据集，其中包含正确答案。如，给定一个房价数据集其中每个样本都是真实房价，算法的目的就是给出更多的正确答案。上面的例子也被称为回归问题，其目的是预测连续数值输出

多特征例子

在这里插入图片描述
假设一个数据集是不同肿瘤大小和不同年龄所对应患者所患癌症的良性和恶性判定，现有以患者其肿瘤大小及其年龄对应如图中粉色小点，学习算法所做的就是拟合一条直线来划分良性肿瘤和恶性肿瘤的区域。可以预测该患者肿瘤可能为良性。这是一个分类问题，其目的是预测离散值输出。

但在实际情况下，不止有大小和年龄两个特征，可以有无数个特征提供给计算机帮助其进行预测。那么计算机该如何存储这些特征？实际上可以设计一个算法来处理这种情况。

1.3 无监督学习

在监督学习的判断肿瘤的例子中，给出的数据集会标明肿瘤是否为良性。而无监督学习的数据是没有任何标签的，如图所示：

无监督学习一般会判定该数据集中数据分为好几个簇，如上图，无监督算法可以把这些数据分为两个不同的簇如下图所示，这就是聚类算法。
在这里插入图片描述
聚类算法应用于很多场景，如谷歌新闻就是每天手机成千上万条新闻然后自动将他们分簇（按专题分类）。