Python数据分析与机器学习实战笔记(5) - K近邻算法

最新推荐文章于 2023-04-10 14:52:20 发布

grinningGrace

最新推荐文章于 2023-04-10 14:52:20 发布

阅读量470

点赞数

分类专栏： Python数据分析与机器学习实战笔记

本文链接：https://blog.csdn.net/sinat_33418306/article/details/104493146

版权

本文详细介绍了Python中K近邻(KNN)算法，从数据读取开始，阐述了KNN的基本原理，包括欧式距离的计算。讨论了模型评估，如训练集与测试集的划分，均方根误差的使用，并探讨了数据标准化的重要性。最后，通过sklearn库实现了多变量的KNN模型。

摘要由CSDN通过智能技术生成

文章目录

K 近邻算法

K 近邻算法

1. K近邻算法概述

1.1读取数据

import pandas as pd
#选择部分列
features = ['accommodates','bedrooms','bathrooms','beds','price','minimum_nights','maximum_nights','number_of_reviews']

dc_listings = pd.read_csv('listings.csv')

dc_listings = dc_listings[features]

print(dc_listings.shape)

dc_listings.head()

数据特征：

accommodates: 可以容纳的旅客
bedrooms: 卧室的数量
bathrooms: 厕所的数量
beds: 床的数量
price: 每晚的费用
minimum_nights: 客人最少租了几天
maximum_nights: 客人最多租了几天
number_of_reviews: 评论的数量

1.2 K nearest Neighbor 算法

在这里插入图片描述

在这里插入图片描述

Alt

1.3（欧式）距离的定义

Alt
其中Q1到Qn是一条数据的所有特征信息，P1到Pn是另一条数据的所有特征信息

import numpy as np
#假设我们的房子有3个房间
our_acc_value = 3

dc_listings['distance'] = np.abs(dc_listings.accommodates - our_acc_value)
dc_listings.distance.value_counts().sort_index()

#sample操作可以得到洗牌后的数据
c_listings = dc_listings.sample(frac=1,random_state=0)
dc_listings = dc_listings.sort_values(by='distance')
dc_listings.price.head()

dc_listings['price'] = dc_listings.price.str.replace("\$|,",'').astype(float)

mean_price = dc_listings

最低0.47元/天解锁文章

grinningGrace

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python数据分析与机器学习实战笔记(5) - K近邻算法

文章目录K 近邻算法1. K近邻算法概述1.1读取数据1.2 K nearest Neighbor 算法1.3（欧式）距离的定义1.4 模型评估1.4.1 首先制定好训练集和测试集1.4.2 基于单变量预测价格1.4.3 Root Mean Squared Error 均方根误差1.4.4 不同的变量效果会不会不同呢1.4.5 数据标准化，归一化2. sklearn库与功能2.1 standari...
复制链接

扫一扫