特征工程
特征工程的本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
模型拟合
KNN算法简介
KNN(K-Nearest Neighbors,K-近邻)算法是一种基本且广泛使用的分类和回归算法。它的工作原理非常简单:通过查找测试数据在特征空间中的最近邻居来预测数据的标签或值。
KNN算法的核心思想是“物以类聚,人以群分”。在给定的训练样本集中,每个样本点均有标签,即我们知道样本点对应的类别或者实际数值(在回归问题中)。算法执行时,对于新的未知标签的样本(称为查询点),KNN搜索训练集中与之最近的K个样本点的标签,并基于这K个样本点的标签通过多数投票或平均等方式来预测查询点的标签。
对于k值的选择,通过交叉验证,网格搜索选择一个合适的k值。
对于距离的度量,最常用的是欧式距离。
分类和回归的区别:分类问题输出的值是离散的,回归问题输出的值是连续的。
KNN算法分类和回归实现
1分类
2回归