Datawhale X 李宏毅苹果书 AI夏令营:TASK1

机器学习的基础概念及其工作流程,具体案例:预测视频频道每日观看次数

机器学习基础学习笔记

1. 机器学习(Machine Learning, ML)与深度学习(Deep Learning, DL)基本概念
  • 机器学习:指机器具备学习能力的技术。具体而言,机器学习是让机器能够找到一个函数,该函数能够将输入数据映射到输出数据上。例如,语音识别中,输入是声音信号,输出是对应的文字。
  • 深度学习:是机器学习的一个分支,主要通过神经网络模型实现复杂函数的自动学习。深度学习在处理图像、语音等复杂数据上表现出色。
2. 机器学习的类别
  • 回归(Regression):输出是一个数值(标量),如预测未来某时间的PM2.5数值。
  • 分类(Classification):输出是预设类别中的一个,如判断邮件是否为垃圾邮件。
  • 结构化学习(Structured Learning):输出是一个有结构的物体,如生成图像或文章。
3. 机器学习运作过程(以视频点击次数预测为例)
步骤一:定义模型
  • 模型:带有未知参数的函数。例如,y = b + wx1,其中y是预测值,x1是特征(如前一天观看次数),bw是未知参数(分别称为偏置和权重)。
步骤二:定义损失函数
  • 损失函数:衡量模型预测值与实际值之间差距的函数。常用损失函数包括平均绝对误差(MAE)和均方误差(MSE)。
  • 计算损失:通过训练数据(如过去三年的观看次数)计算损失值,并尝试通过调整参数bw来最小化损失。
步骤三:优化参数
  • 梯度下降:一种常用的优化方法,通过计算损失函数对参数的梯度(即斜率),并沿着梯度的反方向更新参数值,以逐步减小损失。
  • 学习率(η):影响参数更新步长的超参数,需要手动设置。
  • 局部最小值与全局最小值:梯度下降可能陷入局部最小值而非全局最小值,但局部最小值问题在实际应用中往往不是主要障碍。
4. 线性模型示例
  • 模型y = b + wx1,用于预测视频观看次数。
  • 优化结果:通过梯度下降找到最优参数w*b*,使得损失最小。
  • 预测未来:使用优化后的模型预测未来视频观看次数,并评估在未见过的数据上的表现(如2021年的数据)。
5. 注意事项
  • 过拟合与欠拟合:模型在训练数据上表现过好(过拟合)或在训练数据上表现不佳(欠拟合)都是需要注意的问题。
  • 特征选择:选择合适的特征对模型性能至关重要。
  • 超参数调整:学习率等超参数的调整对模型训练效果有显著影响。

详细内容请学习:Datawhale (linklearner.com)

未完待续......

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值