心法利器[19] | 算法问题下模型之外的问题：概述

最新推荐文章于 2024-10-07 09:58:35 发布

机智的叉烧

最新推荐文章于 2024-10-07 09:58:35 发布

阅读量105

点赞数

本文链接：https://blog.csdn.net/baidu_25854831/article/details/115291337

版权

【心法利器】

本栏目主要和大家一起讨论近期自己学习的心得和体会，与大家一起成长。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。

往期回顾

很多原因会导致我们在思考一个问题的时候，会在考虑一个算法问题的时候第一反应就考虑这个方法用什么模型，尤其是深度学习模型，但我们在实践应用的时候，却并非如此。

这次，先给大家聊一些比较通用的问题吧。

明确问题，比解决问题更加重要，因为问题不明确，你努力的方向都不明确，你甚至不知道你最终有没有解决问题，因此，我们需要明确的是，问题是什么，我们需要解决的问题是什么，包括但不限于这些细节：

深度学习类的方法通常都需要大量的、质量还挺高的数据，所以选择使用深度学习之前，我们最需要考虑的就是数据问题：

当且仅当这两个满足，深度学习才可以实施，但是另外还有一个更重要的问题——评测集。

评测集是评判一个任务是否完成，完成的如何的关键点。

因此构造一个稳定、可靠、精准的评测集是非常重要的。

评测集之后，才是训练的数据集，和比赛、科研不同，我们往往很难拿到，一旦拿不到或者没拿够，各种所谓的高端模型可能就没有了，但是我们要知道的是，训练数据难寻，但是嘛，词典、规则之类的还是可以挖掘的。因此，我们，我们可以：

算法任务除了依赖数据，还有资源，尤其现在大规模预训练语言模型当道，大部分人在不考虑现有资源的情况下就bert一把梭，最终很可能就是效果很好（好不好都不是必然的）但是就是上不了线，这里我们需要考虑几个因素：

这些都是我们在方案选型的时候，需要考虑的核心问题，一旦这些问题没有很好地解决，模型，尤其是大的复杂的模型，那就根本没法用。

前面提到，指标直接确定了目标是否达到，因此指标的设计将直接影响目标的达成情况。来讲几个细节点吧：

算法指标，简单的准招F1，这是分类问题最直接的指标了，当然还有AUC之类的很多，这个只要数据集靠谱基本不会有什么错。
业务指标，NLP看的最多的应该是端到端的满意度，例如问答领域看回答是否满足需求，推荐系统则是看点击率、转化率等等，这些指标只有让用户适用、体验才能够得到，这些需要精心设计，否则可能会出了差错，导致产品出现一些比较尴尬的问题。