快速了解—机器学习、K-近邻算法及其API

最新推荐文章于 2024-05-20 19:08:38 发布

小林打怪中

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量956

点赞数 30

文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linxinyide/article/details/135477262

版权

一、ML机器学习（Machine Learning）

1、应用领域：数据挖掘、自然语言处理 NLP、计算机视觉 CV等。

2、发展的三要素：数据、算法、算力

3、相关术语

机器学习模型 = 数据 + 算法

数据：用于训练模型

样本（sample）：一行数据

特征（feature）：一列数据（必须和目标相关）

标签（label）/目标（target）：要预测的值，即答案列

数据集：训练集、测试集

x_train：训练集的特征值

y_train：训练集的目标值

x_test：测试集的特征值

y_test：测试集的目标值

二、算法分类（根据数据是否有标签）

1、有监督：监督学习的算法，要求数据一定要有目标值

回归问题：目标值是连续取值（房价、薪水）

分类问题：目标值是类别型（二分类、三分类、多分类）

2、无监督：没有目标值，无反馈

典型场景聚类，获得标签的成本太高，可以采用无监督的方式（反欺诈）

3、半监督：一部分数据有标签、一部分数据没有标签

三、建模流程

1、获取数据

2、数据基本处理：空值、异常、重复

3、特征工程

特征提取：原始数据中提取与任务相关的特征，构成特征向量

预处理、降维、选择、组合

4、模型训练（调参）：线性回归、逻辑回归、决策树、GBDT

5、模型评估：回归评测指标、分类评测指标、聚类评测指标

四、模型拟合

1、分类

欠拟合：模型在训练集和测试集表现都很差

产生原因：模型过于简单，特征过少

解决办法：添加其他特征；添加多项式特征项

过拟合：训练集表现很好，测试集表现很差

产生原因：模型过于复杂、数据不纯、训练数据太少

解决方法：重新清洗数据，增大训练数据的样本量，正则化，减少特征维度

Early stopping：当模型训练到某个固定的验证错误率阈值时，及时停止模型训练

2、正则化

异常点数据造成权重系数过大、过小，尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化。

为了减少过拟合的影响，控制模型的参数。尤其是高次项的权重参数

L1正则化：使得权重趋向于 0，甚至等于 0，使得某些特征失效，达到特征筛选的目的

导包：from sklearn.linear_model import Lasso

正则化：estimator = Lasso ( alpha = 0.005，normalize = True )

a：惩罚系数，该值越大则权重调整的幅度就越大

L2正则化：使得权重趋向于 0，一般不等于 0，对高次方项系数影响较大

tips：工程开发常用，产生一些平滑的权重系数

岭回归导包：from sklearn.linear_model import Ridge

正则化：estimator = Ridge( alpha = 0.005，normalize = True )

五、KNN（K-近邻算法）

1、概述

通过计算距离来判断样本之间的相似程度，距离越近两个样本就越相似, 就可以划归到一个类别中

2、算法思想

如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别

3、样本相似性

样本都属于一个任务数据集，样本距离越近越相似

4、基本流程

1. 使用KNN算法对一个样本进行分类

2. 计算当前样本和其它样本, 特征取值之间的距离，按距离从小到大进行排序

3. 确定K值 : 离该样本最近的K个样本

4. 通过这K个样本的类别确定当前样本的类别

5、K（超参数）可调

K越小模型越复杂容易受到异常点的影响，过拟合

K越大模型越简单受到数据分布的影响，欠拟合

当K = 样本数量的时候, 模型结果是确定的结果

6、API

1. K-近邻导包

from sklearn.neighbors import KNeighborsClassifier,KNeighborsRegressor

KNeighborsClassifier k-近邻（分类）

KNeighborsRegressor k-近邻（回归）

2. 创建 K近邻的分类器 / 回归器

knn = KNeighborsClassifier(n_neighbors = 1)

n_neighbors：即K值，样本个数

3. 调用fit 模型训练

knn.fit(x, y) x 训练集特征值

y 训练集目标值

4. 使用训练好的模型进行预测

knn.predict ( [[4,4,5]] )

tips：训练时的维度与预测时传入的维度要相同

7、距离的度量方式

欧氏距离：两点之间的直线距离

曼哈顿距离：

切比雪夫距离：

闵可夫斯基距离：多种距离的总的表示公式

p = 1 曼哈顿，p = 2 欧氏距离，p = ∞ 切比雪夫距离

六、特征工程

1、归一化 / 标准化：可以把量纲不统一的特征，缩放到同一取值范围内

2、归一化（受异常值影响）

1. 归一化导包：from sklearn.preprocessing import MinMaxScaler

2. 创建一个 Scaler 对象：scaler = MinMaxScaler ( )

3. 调用fit 模型训练：scaler.fit(x)

fit 就是在计算每一列特征的最大值和最小值, 并保存到 scaler 对象中

4. Transform 得到缩放之后的结果：scaler.transform(x)

Transform 变化，利用上一步计算出来的 最大最小值, 作用到原始数据上，得到缩放之后的结果

3、标准化

1. 标准化导包：from sklearn.preprocessing import StandardScaler

2. 创建一个 Scaler 对象：scaler = StandardScaler ( )

3. 调用fit 模型训练：scaler.fit(x)

fit 就是在计算每一列特征的均值和方差, 并保存到 scaler 对象中

4. Transform 得到缩放之后的结果：scaler.transform(x)

Transform 变化，利用上一步计算出来的均值和方差, 作用到原始数据上，得到缩放之后的结果

小林打怪中

关注

30
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
快速了解—机器学习、K-近邻算法及其API

快速了解机器学习及其建模过程，掌握KNN算法，特征工程中的归一化及标准化的API
复制链接

扫一扫

小林打怪中 CSDN认证博客专家 CSDN认证企业博客

码龄1年

24: 原创

116万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

760: 积分

503: 粉丝

508: 获赞

17: 评论

274: 收藏

私信

关注

热门文章

分类专栏

Python 13篇
知识点笔记 1篇

最新评论

神经网络基础——激活函数的选择、参数初始化
CX330的烟花: 很清楚内容简明，方便理解
聚类算法（KMeans）模型评估方法（SSE、SC）及案例
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617966586。
速通——决策树（泰坦尼克号乘客生存预测案例）
CSDN-Ada助手: 恭喜你发布了第20篇博客！看了你的《速通——决策树（泰坦尼克号乘客生存预测案例）》，觉得你对决策树的理解和运用很深入，能够将理论知识与实际案例相结合，让读者更易于理解。希望你能继续保持创作的热情，可以考虑在将来的文章中加入一些实际应用案例，或者分享一些自己的实践经验，让读者更加受益。期待你的下一篇作品！
快速了解——逻辑回归及模型评估方法
m0_68949064: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文。
Seaborn——可视化的具体API应用
CSDN-Ada助手: 恭喜您撰写了第19篇博客！Seaborn的具体API应用确实是一个很有趣的话题，您在文章中对其进行了深入的探讨，让读者受益匪浅。希望您能继续保持创作的热情，可以考虑分享一些实际案例或者使用技巧，让读者更好地理解如何运用Seaborn进行数据可视化。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。