斯坦福21秋 实用机器学习(李沐)1. 课程介绍、数据获取、网页抓取、数据标注

本文介绍了机器学习项目流程,强调了数据获取、处理和标注的重要性。数据获取涉及网页抓取和数据集来源,如学术数据集和网上爬取。数据标注中讨论了半监督学习的假设,包括连续性、聚类和流型假设。提到工业界应对数据分布变化的挑战,并提及数据科学家的工作重点。此外,提到了数据标注工具如Amazon SageMaker Ground Truth,以及主动学习和弱监督学习等方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 机器学习项目流程

 1. 把问题变成机器学习的问题

有的问题挺难的:叠衣服、开车

有些看似难得机器学习却容易做:翻译、

在工业界,很多问题多少会有一点自己特有的地方,需要对整个ML算法,能够做什么事 有个比较比较全面的了解

2. 收集数据、处理数据

3. 训练、调参

4. 模型部署到线上

5. 关注模型的性能:持续监控模型的预测的精度、线上延迟、...

例子:预测这个房子的价格、预测数字 是一个叫做回归的问题。

可能一开始不会去试任何什么特别高大上的深度学习的模型,我肯定是来训练一个比较简单的模型,比如说我就训练一个最简单的线性回归,主要是用来测试我的整个数据是怎么样子,用一个简单模型来测试数据的好坏

实务上可能会面临的问题:

数据的分布会发生变化,很有可能你在一些数据上训练一个模型,再去另外一个地方预测的话会有问题

比如说你在一个网站上,用户群体在发生变化的话,比如说你以前是一些比较年龄小一点的用户,整个用户的行为是不一样的

你在之前的数据上训练的模型在新的地方肯定是有问题,

或者是说你之前训练的模型&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值