分类算法
KNN算法
特殊的,无模型算法or训练数据集等于模型本身
数学含义
点的分类由离他最近的K个点的分类决定
流程
预处理:数据归一化
调参:scaler
训练:计算归一化后训练数据,对参数进行测试得出最优参数
测试:然后依据测试数据得到的参数进行投票决定新数据类型,根据标签判断成功率
评价
天然解决多分类问题
KNN也可以用于回归
缺点:
效率低,m个样本n个特征,O(m*n)的时间
高度数据相关
维数灾难,由于距离计算方法,维数越高距离越大(降维操作)
线性回归法
简单线性回归
理论
最小二乘法
实现代码
for循环
向量运算
性能差距
误差
注意,均方误差使得单位开方,度量单位与数据单位不同
上为均方误差,中为均方根误差,下为平均绝对误差
对于不同数据的种类,误差没有统一性,如预测房价误差单位为万元,预测分数误差单位为分。
为统一度量单位,引入R
多元线性回归
理论
实现代码
可解释性
可解释性即:每个变量类型都有对应不同的θ或a值,通过θ的值,可以判断变量对结果的影响程度
如上,coef_打印出了所有θ的值,正即正相关,负即负相关;绝对值最大的影响最大。绝对值最大的影响因素即NOX,这就是可解释性
notebook操作补充
导包
导入自己写的包,包内代码改动后要重启内核kernel
from 项目名.文件名 import 方法名
from 项目名.文件名 import 类名
分割数据集方法
问题与解决
问题1:
设置多内核初始化gridCV之后,训练模型报错,编码错误(未解决)
模型文件路径中包含 中文 ,导致解码失败,具体来说是存储该模型的文件夹为中文,将文件夹修改为 英文 后
具体的 ,电脑用户名有中文
解决:考虑这个方法
问题2:
数据集过期
按提示换数据集获取方法(没看懂)
解决:
方法一:回退scikit-learn版本到1.2之前
卸载原scikit-learn
安装0.22.1版本——失败
方法二:网上找到开放式公共数据集,下载后加载到程序中