k近邻房价预测
- import pandas as pd
- features=['accommodates','bedroom','bathroom','beds','price','minimum_nights','number_of_reviews']#样本特征,只取全部特征的这些列
- dc_listings=pd.read_csv('listings.csv')#读取数据
- dc_listings=dc_listings[features]#只取这8个特征的数据
- print(dc_listings.shape)#输出(3723,8) 拿到3723条数据,每个数据有8个特征值
如果有1个房间的房子,能租多少钱?首先,得看看别人都租了多少钱。(看1个房间别人都租了多少钱)
k表示我们的候选对象的个数。也就是和我房间数量最相近的其他房子。
(找3个房间为3的K=3,找5个房间等于3的k=5,以此类推...)
假设数据源中有5个信息,现在我想针对我的房子(只有一个房间)来定一个价格。
现在选K=3,也就是选择3个跟我最近的房源。可以考虑求下平均值。
距离的定义:
如何才能知道哪些数据样本和我最接近呢?采用欧式距离。
q1-qn为一条数据的所有特征信息,p1-pn为一条数据中的所有特征信息。
假设我们的房子有3个房间。