机器学习简单算法实践

分类算法

KNN算法

特殊的,无模型算法or训练数据集等于模型本身

数学含义

点的分类由离他最近的K个点的分类决定

流程

预处理:数据归一化

调参:scaler

训练:计算归一化后训练数据,对参数进行测试得出最优参数

测试:然后依据测试数据得到的参数进行投票决定新数据类型,根据标签判断成功率

评价

天然解决多分类问题

KNN也可以用于回归

缺点:

效率低,m个样本n个特征,O(m*n)的时间

高度数据相关

维数灾难,由于距离计算方法,维数越高距离越大(降维操作)

线性回归法

简单线性回归

理论

最小二乘法

实现代码

for循环

向量运算

性能差距

误差

注意,均方误差使得单位开方,度量单位与数据单位不同

上为均方误差,中为均方根误差,下为平均绝对误差

对于不同数据的种类,误差没有统一性,如预测房价误差单位为万元,预测分数误差单位为分。

为统一度量单位,引入R

多元线性回归

理论

实现代码

可解释性

可解释性即:每个变量类型都有对应不同的θ或a值,通过θ的值,可以判断变量对结果的影响程度

如上,coef_打印出了所有θ的值,正即正相关,负即负相关;绝对值最大的影响最大。绝对值最大的影响因素即NOX,这就是可解释性

notebook操作补充

导包

导入自己写的包,包内代码改动后要重启内核kernel

        from 项目名.文件名                                    import 方法名

        from   项目名.文件名                               import 类名

分割数据集方法

问题与解决

问题1:

设置多内核初始化gridCV之后,训练模型报错,编码错误(未解决)

模型文件路径中包含 中文 ,导致解码失败,具体来说是存储该模型的文件夹为中文,将文件夹修改为 英文 

具体的 ,电脑用户名有中文

解决:考虑这个方法

http://t.csdnimg.cn/FRAfn

问题2:

数据集过期

按提示换数据集获取方法(没看懂)

解决:

方法一:回退scikit-learn版本到1.2之前

卸载原scikit-learn

安装0.22.1版本——失败

方法二:网上找到开放式公共数据集,下载后加载到程序中

http://t.csdnimg.cn/dSwl1

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值