day02 人工智能学习笔记

最新推荐文章于 2024-10-04 22:36:54 发布

黄小姐最美丽

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量790

点赞数 8

文章标签：人工智能学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_75178537/article/details/138130723

版权

本文介绍了特征工程的关键步骤，包括特征提取、预处理、降维和选择，讨论了模型拟合问题，重点讲解了KNN算法的原理、流程和K值选择。同时，推荐了基于Python的scikit-learn库作为开发工具。

摘要由CSDN通过智能技术生成

一、特征工程概念入门

1.特征提取

从原始数据中提取与目标相关的特点（特征向量）

2.特征预处理

不同特征对模型的影响的一致性：因量纲问题，有些特征对模型影响大，有些影响小

将数据做标准化、归一化处理

3.特征降维

将原始数据的评价维度降低

4.特征选择

从特征中选择出一些重要特征训练模型

5.特征组合

将多个特征合并组合在一起

二、模型拟合问题

1.拟合问题

a.拟合：用在机器学习领域，用来表示模型对样本点的拟合情况

b.欠拟合：模型在训练集上表现很差、在测试集表现也很差

c.过拟合：模型在训练集上表现很好，在测试集上表现很差

2.产生原因

欠拟合：模型过于简单过拟合：模型太过复杂、数据不纯、训练数据太少

3.泛化概念

泛化：集体的、个别的扩大为一般的能力

奥卡姆剃刀原则：给定两个具有相同泛化误差的模型，倾向选择较简单的模型

三、机器学习开发环境

基于Python的scikit-learn库

作用：a.简单高效的数据挖掘和数据分析工具

b.可供大家使用，可在各种环境中重复使用

c.建立在NumPy，SciPy和matplotlib上

d.开源，可商业使用-获取BSD许可证

安装方法：pip install scikit-learn

四、KNN算法简介

1.KNN概念K Nearest Neighbor

一个样本最相似的k个样本中的大多数属于某一个类别，则该样本也属于这个类别

2.KNN分类流程

a.计算未知样本到每一个训练样本的距离

b.将训练样本根据距离大小升序排列

c.取出距离最近的K个训练样本

d.进行多数表决，统计K个样本中哪个类别的样本个数最多

e.将未知的样本归属到出现次数最多的类别

3.KNN回归流程

a.计算未知样本到每一个训练样本的距离

b.将训练样本根据距离大小升序排列

c.取出距离最近的K个训练样本

d.把这个K个样本的目标值计算其平均值

d.将未知的样本预测的值了

4.K值的选择

K值过小：过拟合 K值过大：欠拟合

五、KNN算法API介绍

分类、回归实现

结果：

黄小姐最美丽

关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

黄小姐最美丽 CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

171万+: 周排名

21万+: 总排名

1854: 访问

: 等级

61: 积分

24: 粉丝

20: 获赞

1: 评论

19: 收藏

私信

关注

热门文章

最新评论

day01 人工智能学习笔记
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
day04 人工智能学习笔记
CSDN-Ada助手: 恭喜用户继续坚持创作，第四篇博客内容丰富，标题也很吸引人。建议在接下来的创作中，可以深入探讨人工智能在不同领域的应用和发展趋势，或者分享一些实际案例和经验，让读者更加深入地了解人工智能的魅力。希望您能继续保持创作的热情，不断进步，期待您更多精彩的作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。