内容大纲
1、回归算法-线性回归分析
2、线性回归实例
3、回归性能评估
4、分类算法-逻辑回归
5、逻辑回归实例
6、聚类算法-kmeans
7、k-means实例
Q:如何判断是分类算法还是回归算法
由目标值特征来决定使用分类(离散型)算法还是回归(连续型)算法
Q:回归有什么应用分类
回归的应用:一个是知道具体的数据预测,一个是得到回归后的分类问题
1. 回归算法-线性回归分析
1.1关于线性回归
Q:线性回归的作用
寻找一种能预测的趋势
Q:线性回归特征值与目标值的特点
二维:直线关系
三维:平面
1.2关于线性关系模型
Q:概念
一个函数,功能是预测,方式是通过学习属性的线性组合。
Q:线性回归的定义和对机器算法的对照
定义:线性回归通过一个或者多个自变量(特征值)与因变量(目标值)之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合
一元线性回归:涉及到的变量(特征值)只有一个
多元线性回归:涉及到的变量(特征值)两个或两个以上
Q:数组的特点
几维数组就包括有几层括号
N维数组就包括N-1维的数组。
Q:矩阵和数组
矩阵是二维的数组
Q:矩阵为什么在机器算法中非常重要,是大多数算法的基础。以线性回归为例
线性回归中用属性和权重的组合来预测结果
矩阵满足特定运算的需求。
矩阵乘法:
1.2预测的误差
预测结果和真实值会有偏差
预测与真实的误差 决定了回归与神经网络用的是迭代的算法
通过不断改变权重wi
Q:损失函数的概念与内涵
指的是误差大小
损失 越小,误差越小——找到目标,使总损失最小。
优化的过程,就是不断学习,找到最优的动态权重的过程,
Q:最小二乘法正规方程?
Q:机器算法:梯度下降(降到最底,底部为损失函数最小)
a为超参数,手工指定,体现学习调整的速度
方向为系统自带,不用考虑
理解:沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后
更新W值
使用:面对训练数据规模十分庞大的任务
示意图:
算法的自我学习的过程
Q:回归API
最终目的是求出W
•sklearn.linear_model.LinearRegression()
•sklearn.linear_model.SGDRegressor( )
Q:sklearn优缺点
参数在API内部优化,有点像黑盒子
VS~
tensorflow可以自己实现
1.3实例:波士顿房价
Q:步骤
1、波士顿地区房价数据获取
2、波士顿地区房价数据分割
3、