机器学习之模型选择与调优

? 模型选择与调优

1️⃣、什么是交叉验证(cross validation)

交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。

​ ?:五折交叉验证,就是分成5份,三份训练,一份验证,一份测试

? 分析

我们之前知道数据分为训练集和测试集,但是**为了让从训练得到模型结果更加准确。**做以下处理

  • 训练集:训练集+验证集
  • 测试集:测试集
    在这里插入图片描述

? 为什么要进行交叉验证

​ ? 交叉验证的目的:为了让被评估的模型更加准确可信

2️⃣、超参数搜索-网格搜索(Grid Search)

通常情况下,有很多参数是需要手动指定的(如K-近邻算法中的k值),这种叫做超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。
在这里插入图片描述

3️⃣、模型选择与调优API

  • sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)
    • 对估计器的指定参数值进行详细搜索
    • estimator:估计器对象
    • param_grid:估计器参数(dict){‘n_neighbors’:[1,3,5]}
    • cv: 指定几折交叉验证
    • fit :输入训练数据
    • score:准确率
    • 结果分析:
      • bestscore:在交叉验证中验证的最好结果_
      • bestestimator:最好的参数模型
      • cvresults:每次交叉验证后的验证集准确率结果和训练集准确率结果

4️⃣、鸢尾花案例增加K值调优

  • ? 使用GridSearchCV构建估计器
# 获取数据集,加载鸢尾花数据集
from sklearn.datasets import load_iris
# 分割数据集
from sklearn.model_selection import train_test_split
# 特征工程:标准化
from sklearn.preprocessing import StandardScaler
# K-近邻算法API
from sklearn.neighbors import KNeighborsClassifier


def knn_demo():
	'''knn算法对鸢尾花数据集分类演示'''
    # ? 获取数据集
    iris = load_iris()
    
    
    # ? 分割数据集,参数(特征值,目标值,划分比例,随机种子)
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=8)
    
    
    # ? 特征工程:标准化
    # ✨ 实例化一个转换器类
    transfer = StandardScaler()
    # ? 传入数据调用fit_transform进行转换
    x_train = transfer.fit_transform(x_train)
    # ? 因为来自于同一个数据集,所以用上一个的标注差就行,因为均值,标准差是一样的。
    x_test = transfer.transform(x_test)
    
  
    # ? 实例化一个估计器
    estimator = KNeighborsClassifier()
    
    
    # ? 模型选择与调优----网格搜索和交叉验证
    # ? 准备要调的超参数
    param_dict = {'n_neighbors':[1,3,5]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)
    
    
    
    # ? 模型训练和评估
    # ? 传入训练数据集,进行机器学习
    estimator.fit(x_train, y_train)
    
    
    
    # ? 模型评估
    # ? 方法1:比较真实值和预测值, y_predict预测值
    y_predict = estimator.predict(x_test)
    print('预测值为:\n', y_predict)
    print('比较真实值与预测值结果为:\n', y_predict == y_test)
    # ? 方法2:直接计算模型准确率
	print('模型准确率为:\n', estimator.score(x_test, y_test))
    return None

# ✋ 调用函数输出结果。
knn_demo()
  • ? 然后进行评估查看最终选择的结果和交叉验证的结果
print("在交叉验证中验证的最好结果:\n", estimator.best_score_)
print("最好的参数模型:\n", estimator.best_estimator_)
print("每次交叉验证后的准确率结果:\n", estimator.cv_results_)

5️⃣、案例:预测facebook签到位置

  • ? 数据集介绍
    将根据用户的位置,准确性和时间戳预测用户正在查看的业务。
    train.csv,test.csv 
    row_id:登记事件的ID
    xy:坐标
    准确性:定位准确性 
    时间:时间戳
    place_id:业务的ID,这是您预测的目标
    
  • ? 步骤分析
    • 对于数据做一些基本处理(这里所做的一些处理不一定达到很好的效果,我们只是简单尝试,有些特征我们可以根据一些特征选择的方式去做处理)

      • 1 缩小数据集范围 DataFrame.query()

      • 2 选取有用的时间特征

      • 3 将签到位置少于n个用户的删除

        place_count = data.groupby(‘place_id’).count()

        tf = place_count[place_count.row_id > 3].reset_index()

        data = data[data[‘place_id’].isin(tf.place_id)]

    • 分割数据集

    • 标准化处理

    • k-近邻预测

  • ? 代码过程
    • ? 获取数据集
    # 1.? 获取数据集
    facebook = pd.read_csv('./FBlocation/train.csv')
    
    • 缩小数据的范围、选择有用的时间特征和取出标签较少的地点
    # 2.? 基本的数据处理,拿到特征值和目标值
    # 1)? 缩小数据范围
    facebook = facebook.query("x > 1.0 & x <1.25 & y > 2.0 & y < 2.25")
    # 2) ? 选取有用的时间特征
    time_value = pd.to_datetime(facebook["time"], unit="s")
    time_value = pd.DatetimeIndex(time_value)
    facebook["day"] = time_value.day
    facebook["hour"] = time_value.hour
    facebook["weekday"] = time_value.weekday
    # 3)? 去掉签到较少的地点
    place_count = facebook.groupby("place_id").count()
    place_count = place_count[place_count["row_id"] > 3]
    facebook = facebook[facebook["place_id"].isin(place_count.index)]
    
    • 取出数据的特征值和目标值
    # 4)? 拿到特征值x和目标值y
    x = facebook[["x", "y", "accuracy", "day", "hour", "weekday"]]
    y = facebook["place_id"]
    
    • 划分成训练集和测试集
    # 5)? 数据集的划分
    x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=6)
    
    • 标准化处理
    # 6)? 特征工程:标准化
    transfre = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    
    • K近邻算法模型进行测试
    # 7)? knn估计器流程
    estimator = KNeighborsClassifier()
    # 8) ? 模型评估
    # 方法1:比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("预测结果为:\n", y_predict)
    print("比对真实值和预测值:\n", y_predict == y_test)
    # 方法2:直接计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)
    # 7、交叉验证和网格搜索的结果
    print("在交叉验证中验证的最好结果:\n", estimator.best_score_)
    print("最好的参数模型:\n", estimator.best_estimator_)
    print("每次交叉验证后的准确率结果:\n", estimator.cv_results_)
    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值