认知实习第二天

LaoGanDie_

已于 2024-04-23 21:04:33 修改

阅读量822

点赞数 8

文章标签： python

于 2024-04-23 21:02:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LaoGanDie_/article/details/138138484

版权

本文概述了机器学习建模的关键步骤，包括数据评估、特征工程（如特征提取、预处理、降维和选择）、KNN算法（分类和回归流程，以及K值选择）以及sklearn库中的KNN分类API。讨论了过拟合和欠拟合的概念及其原因。

摘要由CSDN通过智能技术生成

一.机器学习建模流程

机器学习建模的一半步骤

数据评估：

搜集与完成机器学习任务相关的数据集

数据基本处理：

数据集中异常值,缺失值的处理等

特征工程：

对数据特征进行提取、转成向量，让模型达到最好的效果

机器学习（模型训练）：

选择合适的算法对模型进行训练（算法：有监督学习,无监督学习,半监督学习,强化学习）

模型评估：

评估效果好上线服务,评估效果不好则重复上述步骤

二.特征工程概念入门

什么是特征工程：

1.特征Feature：

对任务有用的属性信息

2.特征工程：

利用专业背景知识和技巧处理数据，让模型效果更好

特征工程的内容：

特征提取 feature extraction ：

特征向量

特征预处理 feature preprocessing：

不同特征对模型影响一致性

特征降维 Feature decomposition：

保证数据的主要信息要保留下来

特征选择 feature selection ：

从特征中选择出一些重要特征训练模型

特征组合 feature crosses：

把多个特征合并组合成一个特征

三.KNN算法简介

1.KNN概念：

一个样本最相似的 k 个样本中的大多数属于某一个类别，则该样本也属于这个类别

2.KNN分类流程

1.计算未知样本到每一个训练样本的距离

2.将训练样本根据距离大小升序排列

3.取出距离最近的 K 个训练样本

4.进行多数表决，统计 K 个样本中哪个类别的样本个数最多

5.将未知的样本归属到出现次数最多的类别

3.KNN回归流程

1.计算未知样本到每一个训练样本的距离

2.将训练样本根据距离大小升序排列

3.取出距离最近的 K 个训练样本

4.把这个 K 个样本的目标值计算其平均值

5.将未知的样本预测的值了

4.K值的选择

• K值过小：过拟合

• K值过大：欠拟合

拟合：

1.过拟合和欠拟合

拟合：用来表示模型对样本分布点的模拟情况

模型在训练集上表现很差、在测试集表现也很差，是欠拟合

模型在训练集上表现很好、在测试集表现很差，是过拟合

2.过拟合欠拟合产生的原因

欠拟合产生的原因：模型过于简单

过拟合产生的原因：模型太过于复杂、数据不纯、训练数据太少

四.KNN算法API介绍

KNN分类API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5) n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数

关注

8
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

LaoGanDie_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

201万+: 周排名

20万+: 总排名

2056: 访问

: 等级

82: 积分

23: 粉丝

41: 获赞

1: 评论

41: 收藏

私信

关注

热门文章

最新评论

【无标题】认知实习第三天
CSDN-Ada助手: 恭喜作者在认知实习的第三天又坚持写了一篇博客！每一篇博客都是对自己学习的总结和分享，相信对自己和他人都有很大的帮助。接下来，建议作者可以尝试结合自己的实习经历，分享一些具体的案例或者感悟，这样能够让读者更加深入地了解作者的学习和成长过程。希望作者继续保持创作的热情，不断进步！期待看到更多精彩的内容！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
认知实习第四天
CSDN-Ada助手: 恭喜您完成了第四篇博客，标题为“认知实习第四天”！坚持创作是非常难得的品质，您的努力和坚持让人钦佩。在下一步的创作中，或许可以分享一些自己在认知实习中遇到的挑战和收获，让读者更深入了解您的学习过程。期待您更多精彩的文章，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
认知实习第一天
CSDN-Ada助手: 恭喜你开始博客创作之旅！第一篇博客标题“认知实习第一天”让人期待你的实习经历和见解。建议在接下来的创作中，可以结合自己的感悟和体会，分享更多关于认知实习的心得体会，或者展开一些相关的话题讨论，让读者更加深入地了解这个主题。希望你能够继续保持热情，坚持不懈地更新博客内容，相信你会有更多精彩的作品呈现给大家！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。