机器学习24:《数据准备和特征工程-II》收集数据

本文详细讨论了机器学习中数据收集的重要性,强调数据集的大小和质量对模型性能的影响。数据集应足够大,至少比可训练参数多一个数量级,且质量需可靠,包括标签和特征表示的准确性。同时,介绍了如何连接数据日志,识别标签和来源,以及处理直接和派生标签。在构建数据集时,应确保训练数据与预测任务匹配,以提高模型性能。
摘要由CSDN通过智能技术生成

构建数据集常用的步骤如下所示: 

  1. 收集原始数据。
  2. 识别特征和标签来源。
  3. 选择抽样策略。
  4. 拆分数据。

这些步骤在很大程度上取决于你如何构建 ML 问题。本文主要介绍——数据收集-Collecting Data。

目录

1. 数据集的大小和质量

1.1 数据集的大小

1.2 数据集的质量

1.3 特征表示-Feature Representation

1.4 训练与预测

2.连接数据日志

2.1 日志类型

2.2 加入日志源

2.3 预测数据源 - 在线与离线

3.识别标签和来源

3.1直接 vs 派生标签

3.2 标签来源

3.2.1 事件的直接标签

3.2.2 属性的直接标签

3.3 注意事项

3.3.1 直接标签需要过去行为的日志

3.3.2. 如果没有要记录的数据怎么办?

3.3.3 为什么要使用人工标记数据?

3.3.4 提高质量

4.参考文献


1. 数据集的大小和质量

“垃圾进垃圾出”

这句话非

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jin_Kwok

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值