我试图从非贝叶斯的背景来理解这一点。在
在线性回归或blackbox机器学习工具中,工作流程如下所示。在获取数据
准备数据
模型数据(从中学习[或其一部分,训练集])
测试模型(通常在测试集上)
如果根据某些指标,模型良好,则转到6,否则
调查和修改工作。在
模型足够好;用它来预测/分类等
假设我用pymc3来理解广告支出和商品销售收入之间的关系。如果从1到5的所有阶段都进行得很好,那么在R和机器学习包(如scikit learn)中使用的最频繁的统计信息中,我只需要将新的看不到的数据传递给学习的模型并调用predict方法。这通常会打印出Y(销售商品的收入)的预测值,给定一些未知值X(广告支出),但仍要考虑一些置信区间或其他误差。在
在pymc3中怎么做呢?如果我最终得到了很多斜率和beta,那么我应该用哪一个来预测呢?用所有斜率和所有beta的平均值来使用,难道不是像丢掉了很多其他有用的知识吗?在
我发现很难理解从后面取样是如何起作用的。我们可以想象,老板们需要被告知销售商品的预期收入Y数字,考虑到一些广告支出X金额,有一些信心和误差幅度。除了绘图之外,我不知道如何将后验抽样纳入管理报告,并使之对相关方的现金流规划有用。在
我知道我们中的一些人因为R和scikit learn而被宠坏了,但是如果有一种预测方法能以一种更统一和标准化的方式来处理这件事,那岂不是很好?在
谢谢