认知实习第二天

本文概述了机器学习建模的关键步骤,包括数据评估、特征工程(如特征提取、预处理、降维和选择)、KNN算法(分类和回归流程,以及K值选择)以及sklearn库中的KNN分类API。讨论了过拟合和欠拟合的概念及其原因。
摘要由CSDN通过智能技术生成

一.机器学习建模流程

机器学习建模的一半步骤

数据评估:

搜集与完成机器学习任务相关的数据集

数据基本处理:

数据集中异常值,缺失值的处理等

特征工程:

对数据特征进行提取、转成向量,让模型达到最好的效果

机器学习(模型训练):

选择合适的算法对模型进行训练 (算法:有监督学习,无监督学习,半监督学 习,强化学习)

模型评估:

评估效果好上线服务,评估效果不好则重复上述步骤

二.特征工程概念入门

什么是特征工程:

1.特征Feature:

对任务有用的属性信息

2.特征工程:

利用专业背景知识和技巧处理数据,让模型效果更好

特征工程的内容:

特征提取 feature extraction :

特征向量

特征预处理 feature preprocessing:

不同特征对模型影响一致性

特征降维 Feature decomposition:

保证数据的主要信息要保留下来

特征选择 feature selection :

从特征中选择出一些重要特征训练模型

特征组合 feature crosses:

把多个特征合并组合成一个特征

三.KNN算法简介

1.KNN概念:

一个样本最相似的 k 个样本中的大多数属于某一个类别,则该样本也属于这个类别

2.KNN分类流程

1.计算未知样本到每一个训练样本的距离

2.将训练样本根据距离大小升序排列

3.取出距离最近的 K 个训练样本

4.进行多数表决,统计 K 个样本中哪个类别的样本个数最多

5.将未知的样本归属到出现次数最多的类别

3.KNN回归流程

1.计算未知样本到每一个训练样本的距离

2.将训练样本根据距离大小升序排列

3.取出距离最近的 K 个训练样本

4.把这个 K 个样本的目标值计算其平均值

5.将未知的样本预测的值了

4.K值的选择

• K值过小:过拟合

• K值过大:欠拟合

拟合:

1.过拟合和欠拟合

拟合:用来表示模型对样本分布点的模拟情况

模型在训练集上表现很差、在测试集表现也很差,是欠拟合

模型在训练集上表现很好、在测试集表现很差,是过拟合

2.过拟合欠拟合产生的原因

欠拟合产生的原因:模型过于简单

过拟合产生的原因:模型太过于复杂、数据不纯、训练数据太少

四.KNN算法API介绍

KNN分类API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5) n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值