机器学习分类综合案例

最新推荐文章于 2025-02-17 22:50:33 发布

AppleYRY

最新推荐文章于 2025-02-17 22:50:33 发布

阅读量2.9k

点赞数 4

分类专栏： # 周志华西瓜书

本文链接：https://blog.csdn.net/weixin_42676175/article/details/106196852

版权

周志华西瓜书专栏收录该内容

34 篇文章

订阅专栏

在这里插入图片描述 数据清洗；特征工程；缺失值填补；分类。
na_values["?"]—空
数据特别大，不适合放在内存里面处理，不适合用pandas处理
pandas中的describe()可以将数据所有特征显示出来，describe()显示的是数字特征，非数字特征加上include=[‘0’]
在这里插入图片描述默认前5行。head(5)
子图作用：将每一个特征尽可能的表现出来
对所有特征有一个大的认知
missingno查看确实值，中间画白色横线的都有缺失
目标：了解有哪些特征；了解这些特征与目标之间的关系
在这里插入图片描述缺失值：要么去除；要么填补。填补方式：均值，众数，中位数，也可以用线性回归的方式拟合缺失值。数据量特别大，可以去除。数据处理在机器学习中非常重要，基分类器对数据非常的敏感

一个一个看特征：

在这里插入图片描述将预测值变成0，1；然后做一个0，1的分布图；
当样本不均匀的时候，用逻辑回归效果会更好。
分成十块，忽略部分
分箱知识了解
最好的分布是：正态分布
机器学习接受的是数字型变量；将字符型编码为数字型的过程—编码；我们用到：One-Hot;Lable encoding
在这里插入图片描述 将以前的连续型的数据变成0，1二值型
降维两种算法：PCA,SVD
选择：过滤+包装+嵌入式
需要明确的是：选择了什么模型，调整了什么参数；