接上篇文章:机器学习第一期(上):数学矩阵前置知识、机器学习前置知识、机器学习基础、机器学习类型,分类回归、机器学习过程、损失函数、过拟合与欠拟合、正则化项、训练误差与测试误差、模型选择、交叉验证、梯度下降算法
主要内容
- 线性回归模型
- 逻辑回归模型
- 决策树
线性回归模型
最小二乘法
它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小。
我们假设输入属性(特征)的数目只有一个:
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
梯度下降法求解线性回归
逻辑回归模型
线性回归健壮性不够,一旦有噪声,立刻“投降”
Sigmoid函数(压缩函数)
由于逻辑回归的平方损失函数非凸,无法用梯度下降等最小化方法求解,因此,不能使用平方损失函数对逻辑回归问题进行求解。
决策树模型
决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗自上而下的由多个判断节点组成的树。
案例:预测小明今天出不出门打球
特征选择是决定用哪个特征来划分特征空间。
我们使用决策树模型的最终目的是利用决策树模型进行分类预测,预测我们给出的一组数据最终属于哪一种类别,这是一个由不确定到确定的过程,那么我们就选择使数据信息熵下降最快的特征作为分类节点,使得决策树尽快地趋于确定。
决策树(ID3)的训练过程就是找到信息增益最大的特征,然后按照此特征进行分类,然后再找到各类型子集中信息增益最大的特征,然后按照此特征进行分类,最终得到符合要求的模型。