https://aistudio.baidu.com/aistudio/education/group/info/1124
直播回放-QA部分 --- 30min
3.59 主流的做法是在 服务端训练,在部署的时候进行一些优化,比如 量化剪枝蒸馏等。比如 int8,fp16等会更好;其次就是 用 padle slim 框架,或者言有三 知识星球里讲的 其他 优化的文章。
4.10 预训练模型可以理解为一个 超高维度的 embedding 库吗?
NLP可能会更复杂的,你理解的的是早期那种word1voc的静态词向量的做法。
但是现在NLP的预训练模型不是这样,它是你输入一个句子,我针对你这个句子,得到一个embedding。直接对句子级别进行一个建模,你句子的上下文不同,我得到的embedding 都不同。也就是它不会单独在词级别做一个embedding了。
举个例子,你输入一个苹果,他会根据 你上下文可以判断你指的的是 可以吃的苹果 还是 苹果手机。
5.30 百度enrin模型 的预训练模型分场景吗?比如电商的预训练模型。
5.45 这个场景需要你自己去建设,enrn会开放医疗场景,法务场景做一些精调。
6.16 超参调优不容易,autodl 是否能得到一个更好的结果?
6.20 是的,automl 是可以得到一个更好的结果,并且在很多场景里已经得到了验证。
6.34 现在有针对制造业有预训练模型吗?包括 良品率,负样本
6.39 目前没有,但是是我们探索的一个方向。
6.55 一。走gan,二,走深层。
走深层那种无监督的方法,有两种玩法,一,通过无监督的模型,学习良品 应该是一个怎么样的模型,用无监督的做法,拿大量的正常样本,学习一个模型,看是不是能判断出一个良品,然后输入一个 负样本,如果它跟我正样本的差距比较大,计算它的一个距离,那么就把他判断为一个负样本。这是一种无监督的 auto enocode的方式。
7.35 还有一种是 走gan生成;我的负样本比较少,用生成的方式,把更多的 瑕疵,拼接到原来的 正常?数据上去,来解决负样本过少的问题;
作为一个通用的制造业的预训练模型,他还遇到过;工业领域的质检非常特殊,每一家客户不同的产品,都有不同的需求和标准。
8.09 关于设备故障检测和寿命预测的 流程能简要说一下吗?
它偏向于 大数据大一块, 8. 30 故障检测 可能 跟时序的分析,时间序列的判断等等;他不是做这个方向的,给不了意见;
8.52 autodl 一定只有在 padhub 才能使用吗?只有一个方向吗?
不是,现在padhub只有autodl 这一个方向,其实autodl 的方向是有很多的,像他前面说到的 network 等什么的, 这些在padhub上是没有的,但是可以去paddlepaddle 的一个 autodl 的repo下去找找,里面的autodl方法最全。比如 NAS结构等。
9.12 大家可以关注下 paddle slim,paddle slim这个repo是集 autodl 技术大成的 库,在模型压缩这一块,autodl起到了非常大的作用;其实 autodl 这个技术是 贯通深度学习的一个主要方向了;在前面所说的 超参的搜索,网络结构的搜索,还有模型的压缩,等等,它对模型的部署,在边缘端的部署,起到一个重大突破的作用。
22.55 剪枝的宽度,剪了之后你会发现,latency 你会发现不会降太多,
latency 跟硬件有关,剪枝剪完之后你 会发现不会变快,甚至还变慢了,原因跟GPU的计算模型有关系,24.00
剪完之后,发现硬件的缓存友好性没那么高了,cache的命中性没那么好了,
int8 量化的 会发现 在移动端会变的 好很多,24.20
24.45,说白了,服务端,要剪枝,而移动端,最好是 int 8量化。
GPU 用 FP16,英伟达 对fp16 做得匹配很好。25.35
25.51 蒸馏+剪枝
26.10 蒸馏可以 看 paddleslim,里面有很多 蒸馏的 策略。
27.00 最后一个案例,电子表单 飞桨有哪些优势?27.40,多模型去用,
28. CV的 检测分割,每一类 class,大概多少?300张每个类别 够不?
28.50 工业质检的 瑕疵,它的瑕疵形态 各种各样,
29.20 背景和场景 是否复杂,背景单一,300张还算可以。
29.30 通用人像分割,就需要很多样本覆盖不同的形态,才能解决得比较好。
30.10 少样本怎么办?
30.48 平常是怎么构建 超参的闭环的?
抓住模型里最重要的参数,比如 学习率,batchsize,epoch,等等,或者一些 decay,warmup,学习率的变化一定要弄进来,
最后30秒,围绕学习率的变化是最好的。