CSDN21天学机器学习_笔记1

AItairyang

已于 2022-08-03 08:55:37 修改

阅读量109

点赞数

分类专栏：机器学习笔记文章标签：机器学习 python 人工智能

于 2022-08-02 22:15:38 首次发布

本文链接：https://blog.csdn.net/qq_41573429/article/details/126109309

版权

机器学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

活动地址：CSDN21天学习挑战赛

机器学习_笔记1

说明：以下内容皆为个人理解，如果错误希望指出。同时借此机会，补充一下自己的机器学习基础知识。

回归

简介：回归是对一个或多个自变量和因变量之间的关系进行建模，求解的一种统计方法。简单来说，回归任务的目标就是根据输入数据预测输出的具体值。

例如经典的房价预测案例，需要根据房子大小，位置等参数来预测房价。

刹车距离预测案例

1.读取数据

对于表格类数据，可使用pandas库进行数据读取和预测处理

import numpy as np
import numpy as np

# 读取.csv文件: pd.read_csv 
data_cars = pd.read_csv("../data/cars.csv", usecols = ["speed", "dist"])
# 展示前5行：head
data_cars.head()

2.问题求解

直接法：需要满足凸函数条件（个人理解：需要具有解析解，可以直接通过公式求解结果）
迭代法：通过特点的逼近算法，迭代求解近似最优解（例如反向传播算法，根据损失函数的梯度值来更新参数，通过最小化损失函数来求解）

Todo:案例代码学习，待更新

过拟合和欠拟合

引用百度百科：根据现有数据，得到一个连续的函数（也就是曲线）或者更加密集的离散方程与已知数据相吻合，这个过程就叫做拟合(fitting)。

欠拟合

简介：既然拟合的目的是希望函数和数据吻合得足够好，那欠拟合自然指的是得到的函数和数据对应得不够好。在大部分教程中，认为欠拟合的原因是模型太简单，不足以匹配复杂的数据。

这里其实可以简单理解，如果构建的是一个线性模型（例如一条直线 $y = a x + b$ ），而得到的数据其实是符合抛物线分布（例如： $y=a^2x+bx+c$ ），这种情况下自然无法拟合得很好，即使用上更先进的算法，最后的结果也会受限于模型的自身性能。

同时对于问题的处理来说，个人理解过拟合是更容易接受的，可以使用各种正则化方法进行改善，而欠拟合的问题则难以解决，仿佛已经触摸到了模型的上限。

过拟合

简介：对于过拟合，一般在教程中会认为当训练集的损失持续下降而测试集的损失却反而不变或上升的情况下，产生了过拟合现象，并且认为过拟合是由于模型过于复杂造成。

这里可以对过拟合现象做简单理解，首先复杂的模型并不是坏处，但是复杂模型可能学习到一些我们并不希望模型掌握的错误知识，虽然这些知识可能利于降低损失。

举个例子：假如现在做一个识别动物的任务，测试集中包含猫和狗这两种动物，而猫的图片全部是在室内场景下，狗的图片全部是在室外场景。这种情况下，模型就可能把场景的区别作为预测动物类别的关键，认为只要在室内的都是猫这种错误判断，这种情况可以认为模型发生了过拟合现象。同时这种情况下的模型，肯定难以用于其他场景，所以就存在了模型难以泛化的问题。