文章目录
数据和模型 https://blog.csdn.net/u010986753/article/details/98526886
一、监督学习
1.1 监督学习介绍
根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。
监督学习可以分为两类:分类和回归。
1.2 分类
分类问题预测数据所属的类别;和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。
分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测、估计肿瘤性质(恶性瘤是危险的、有害的;良性瘤是无害的)等。
1.3 回归
回归问题是针对于连续型变量的。回归问题根据先前观察到的数据预测数值;
回归的例子包括房价预测、股价预测、身高-体重预测等。
回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。
二、无监督学习
我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。可以这么说,比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。
无监督学习是指一个数据集,我们不知道要拿他来干嘛,也不知道每个数据样本数据点是什么,我们只被告知这是一个数据集,那么对于一个这样的数据集,无监督学习只能判断数据集中的存在的数据子集,并且把其划分为各个簇,对于无监督学习,我们不能事先知道这些数据能带给我们什么样的信息,只有在学习后我们才能大概得出结论
三、线性回归
3.1 线性回归介绍
线性回归可能是统计和机器学习中最著名和最容易理解的算法之一。
线性回归的表示是描述一条最适合输入变量(X)和输出变量(Y)之间关系的方程,它通过为输入变量找到称为系数(w)的特定权重。
例如: y = b + w ∗ x y=b+w*x y=b+w∗x
在给定输入x的情况下,我们预测y,线性回归学习算法的目标是找到系数b和w的值。
3.2 线性回归在统计学意义
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,而不是一个单一的标量变量。)
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线