因为生产环境简陋,工具链也还不是很齐全,目前总是直接在jupyter notebook上炼丹。烦恼的是建模却十分复杂,不是简单的重复调用API,不仅需要尝试不同的参数,还需要细致的去调整模型的架构,甚至直接改变模型类型的选择。总之在notebook中依然需要经常大改某个功能性cell然后观察模型效果,我希望能有工具能完成自动记录
- 模型参数/架构/……等配置的summary
- 数据集预处理方法(包括特征选择,数据的统计特征summary)
- 模型效果在不同数据集上的部分可视化(包括与baseline的对比)
- reasoning可视化(比如针对使用梯度下降的deep model的CAM)
- 其他备注
以上信息的模型性能报告。除此之外,至关重要的是这样的报告不会被下次在同一个notebook中尝试模型时生成的新报告覆盖,同时也需要保证每次生成报告的过程中中间数据生成占用太大的存储空间,也就是说这些临时数据可以被改写覆盖。换言之,我想得到每次运行的“快照”。这些快照可以给我,以及和我合作的小伙伴们更多的建模/数据调整方向上的指导。
我今天花了半天时间思考怎么解决这个需求,考虑了以下方向并认为它们有不可行之处:
- 输出log文件:能记录的信息形式实在过于简单有限了,否决。
- hyperparameter_hunter: 没仔细看,因为我做模型很多时候并没有使用它提到的那些框架,而且无法给出细致的score和数据集上的可视化。
- 直接从
.ipynb
导出html
或pdf
:我不希望过多暴露算法细节(毕竟我是首席代码丑化工具&#x