机器学习（7）- 线性回归

最新推荐文章于 2023-08-25 10:31:57 发布

君莫笑.

最新推荐文章于 2023-08-25 10:31:57 发布

阅读量1.6k

点赞数 1

分类专栏： AI 文章标签： ai 算法

本文链接：https://blog.csdn.net/WeiLanooo/article/details/102632133

版权

本文详细介绍了线性回归的概念、API使用、损失函数优化方法，特别是交叉验证和网格搜索在参数调优中的应用。通过案例探讨了Facebook位置预测问题，并对比了正规方程和梯度下降法。还讨论了欠拟合和过拟合的解决方案，如正则化，特别提到了岭回归的原理和与线性回归的区别。

摘要由CSDN通过智能技术生成

1.11 交叉验证，网格搜索[****]

交叉验证
- 目的: 为了提高模型训练结果可信度, 可以提高模型的范化能力.
- 步骤:
  - 把数据集划分为训练集和测试集
  - 把训练集划分为训练集和验证集
  - 什么是n交叉验证:
    - 把训练集分成n等份, 每轮选择其中一份做验证集, 其他作为训练集, 训练n轮.
    - 一般n选择为10.
网格搜索
- 作用: 模型选择参数调优, 选择出来比较好的超参数.
- 超参数: 在进行模型训练的时候, 需要手动指定的参数. 举例: KNN中的k值就是超参数
网格搜索与交叉验证
- API: sklearn.model_selection.GridSearchCV(estimator, param_grid, cv)
- 参数
  - estimtor: 需要进行参数调优的评估器
  - param_grid, 字典格式超参数列表
  - cv: 几折交叉验证
- 方法
  - fit
  - predict
  - score
- 交叉验证相关的属性
  - best_score_: 交叉验证最好的准确率
  - best_estimator: 交叉验证最好的模型
  - cv_results_: 交叉验证的结果.

1.11 案例：facebook位置预测[***]

步骤:

加载数据
数据基本处理
1. 减少数据规模, 为了演示方便(实际中不要这么做)
2. 选择有效的时间特征, 把单位为秒的时间戳, 该为天, 星期, 小时
3. 去掉签到比较少的地方
4. 确定特征值和目标值
5. 分割数据集
特征工程-特征预处理-标准化
机器学习(KNN+GridSearchCV)
模型评估

# 2. 数据基本处理
#   2.1 缩小数据规模(只是为了演示方便, 实际中不要这个做)
facebook_data = data.query('x>2.0&x<2.5&y>2.0&y<2.5')
# facebook_data
#  2.2 选择有效的时间特征
date_time = pd.to_datetime(facebook_data['time'], unit='s')
date = pd.DatetimeIndex(date_time)
facebook_data['day'] = date.day
facebook_data['weekday'] = date.weekday
facebook_data['hour'] = date.hour
# facebook_data
# 2.3 去掉签到比较少的地方
place_id_counts = facebook_data.groupby('place_id').count()
place_id = place_id_counts.query('row_id>5')
# facebook_data 中筛选place_id里面的地方
facebook = facebook_data[facebook_data['place_id'].isin(place_id.index)]
#   2.4 确定特征值和目标
x = facebook[['x','y','accuracy','day','weekday', 'hour']]
y = facebook['place_id']
#   2.5 分割数据集

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=8)