? K-近邻算法
K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法
1️⃣、什么是k-近邻算法
定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
2️⃣、相似度:就是指两个点之间的距离
①,欧氏距离
d
i
s
t
a
n
c
e
=
∑
i
n
(
a
i
−
b
i
)
2
distance = \sqrt{\sum_i^n (a_i-b_i)^2}
distance=i∑n(ai−bi)2
3️⃣、电影类型分析
①、目标值:电影类型,特征值:打斗镜头,接吻镜头
k=1,爱情片[爱情片] 选取一个样本
k=2,爱情片[爱情片,爱情片] 选取两个样本
k=3,爱情片[爱情片,爱情片,爱情片] 选取三个样本
k=4,爱情片[爱情片,爱情片,爱情片,动作片] 。。。。。。
k=6,[爱情片,爱情片,爱情片,动作片,动作片,动作片] 。。。。。。。
注:对于这个样本来说
- k需要人指定,k是一个超参数,更多是依靠人自身的经验
- k取很大值,受到样本均衡的影响
- k取很小值,容易受到异常点的影响
4️⃣、 K-近邻算法API
- sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
- n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数
- algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},可选用于计算最近邻居的算法:‘ball_tree’将会使用 BallTree,‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)
5️⃣、鸢尾花数据
- 步骤分析
- 获取数据集与分割数据集
- 特征工程:标准化
- 模型训练评估
? 案例:鸢尾花种类预测代码实现
# 获取数据集,加载鸢尾花数据集
from sklearn.datasets import load_iris
# 分割数据集
from sklearn.model_selection import train_test_split
# 特征工程:标准化
from sklearn.preprocessing import StandardScaler
# K-近邻算法API
from sklearn.neighbors import KNeighborsClassifier
def knn_demo():
'''knn算法对鸢尾花数据集分类演示'''
# ? 获取数据集
iris = load_iris()
# ? 分割数据集,参数(特征值,目标值,划分比例)
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=8)
# ? 特征工程:标准化
# ✨ 实例化一个转换器类
transfer = StandardScaler()
# ? 传入数据调用fit_transform进行转换
x_train = transfer.fit_transform(x_train)
# ? 因为来自于同一个数据集,所以用上一个的标注差就行,因为均值,标准差是一样的。
x_test = transfer.transform(x_test)
# ? 模型训练和评估
# ? 实例化一个估计器
estimator = KNeighborsClassifier()
# ? 传入训练数据集,进行机器学习
estimator.fit(x_train, y_train)
# ? 模型评估
# ? 方法1:比较真实值和预测值, y_predict预测值
y_predict = estimator.predict(x_test)
print('预测值为:\n', y_predict)
print('比较真实值与预测值结果为:\n', y_predict == y_test)
# ? 方法2:直接计算模型准确率
print('模型准确率为:\n', estimator.score(x_test, y_test))
return None
# ✋ 调用函数输出结果。
knn_demo()
? KNN算法总结
- 优点:
- 简单,易于理解,易于实现,无需训练
- 缺点:
- 懒惰算法,对测试样本分类时的距离计算量大,时间复杂度高,内存开销大
- 必须指定K值,k值选择不当则分类精度不能保证
- 使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试