机器学习算法①—【KNN算法】预测客户入住位置

#knn算法预测入驻位置(knn算法:计算未知样本与已知样本的距离,取距离最近的k个样本,根据k个样本的标签,对未知样本进行分类)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
import jieba
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report # 精确率和召回率API
from sklearn.model_selection import GridSearchCV # 网格搜索API 

def knncls():
    """knn算法预测入驻位置"""
    # 读取数据
    data = pd.read_csv(r"E:\AI课程笔记\机器学习\train.csv")
    # print(data)

    # 处理数据
    data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")

    # 处理时间数据
    data["time"] = pd.to_datetime(data["time"], unit="s")
    print(data["time"])

    # 构造特征
    time = pd.DatetimeIndex(data["time"]) #把时间转换成字典格式
    data["year"] = time.year
    data["month"] = time.month
    data["day"] = time.day
    data["weekday"] = time.weekday
    print(data)

    #把时间戳删除
    data.drop(labels="time", axis=1, inplace=True)

    #把签到数量少于n个目标位置删除
    place_count = data.groupby("place_id").count()
    tf = place_count[place_count.row_id > 3].reset_index() #重置索引
    data = data[data["place_id"].isin(tf.place_id)] #isin()函数用于判断数据是否在目标数据中
    print(data)

    #取出数据中的特征值和目标值
    y = data["place_id"]
    x = data.drop(["place_id"], axis=1)

    #数据集划分 训练集和测试集
    x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(x, y, test_size=0.25)

    #特征工程(标准化)
    std = StandardScaler()
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    #进行算法流程 knn算法 fit predict score
    knn = KNeighborsClassifier(n_neighbors=5) #n_neighbors=5表示取距离最近的5个样本
    knn.fit(x_train, y_train) #训练
    y_predict = knn.predict(x_test) #预测
    print("预测的目标签到位置为:", y_predict) #得出预测结果
    score = knn.score(x_test, y_test) #得出准确率
    print("预测的准确率为:", score) #得出准确率

    #下述算法可取代上述算法
    # 模型的选择和调优 ①交叉验证 ②网格搜索
    # ①交叉验证 交叉验证的目的是为了让模型更加准确可信,交叉验证的原理:将数据集分成n份,每次取其中一份作为验证集,剩下的n-1份作为训练集,这样一共可以进行n次训练和测试,最后将n次的测试结果取平均值作为模型的评估结果。
    # 交叉验证的原理:将数据集分成n份,每次取其中一份作为测试集,剩下的n-1份作为训练集,这样一共可以进行n次训练和测试,最后将n次的测试结果取平均值作为模型的评估结果。

    # ②网格搜索
    # 网格搜索的原理:将模型中的参数进行排列组合,列出所有可能的组合结果,然后将每一种组合结果都进行交叉验证,最后得出最优的组合结果。
    #构造模型评估参数
    param = {"n_neighbors":[3, 5, 10]}

    gc = GridSearchCV(knn,param_grid=param,cv=2) #cv=2表示进行2折交叉验证
    gc.fit(x_train, y_train) #训练
    print("在测试集上的准确率为:", gc.score(x_test, y_test)) #得出准确率
    print("在交叉验证中最好的结果:", gc.best_score_) #得出最好的结果
    print("选择最好的模型是:", gc.best_estimator_) #得出最好的模型
    print("每个超参数每次交叉验证的结果:", gc.cv_results_) #得出每个超参数每次交叉验证的结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字生命Allen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值