目录
1.采样和分割数据-Sampling and Splitting Data
1.1 采样简介
为机器学习项目收集足够的数据通常很困难。然而,有时数据太多,我们必须选择示例子集进行训练。那么,如何选择子集?以 Google 搜索为例,以什么粒度对大量数据进行采样?你会使用随机查询吗?随机会话?随机用户?
最终,答案取决于问题:我们想要预测什么,我们想要什么特征?
- 要使用上一个查询的特征,需要在会话级别进行采样,因为会话包含一系列查询。
- 要使用前几天的用户行为特征,则需要在用户级别进行采样。