无需标注数据、效果超强的保险领域FAQ问答系统来了！

飞桨PaddlePaddle

于 2022-09-29 20:12:18 发布

阅读量494

点赞数

文章标签：大数据机器学习人工智能编程语言 java

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2OTEzODA5MA==&mid=2247593101&idx=2&sn=8ce014180961f2587cea1d673e5b0968&chksm=cea28748f9d50e5ec71377a8d9d54a19c123a748f34147f703d31e4129623bdefc38543375f0&scene=126&&sessionid=0

版权

“全面赋能千行百业”是AI的重要使命，政务、法律、金融、医疗、制造等传统行业智能化程度越来越高，在效率、成本和收益方面蕴藏着巨大的开拓空间。其中，金融业，就正在AI技术的赋能下，发生着一场“降本增效”的变革。

本文详细聊聊这个话题。我们分别从“场景”、“技术”和“工具”层面进行展开。

场景

场景层面，提到AI+金融，可能会有人很快想到“股价预测”，但其实比起令人琢磨不透的股价波动，金融行业存在着更多收益确定性高、AI价值附增显著的业务场景。举几个例子：

基于CV技术实现“印章弯曲文本检测与识别”；
基于NLP技术实现的“上市公司公告风险事件提取”、“保险领域智能问答系统”；
基于跨模态技术实现的“扫描版合同关键信息抽取”、“表格识别与属性分析”、“双录稽查场景智能音视频质检”；
基于CV检测技术、智能推荐技术实现“银行网点来客画像分析与精准营销”等。

可以说，AI正在深入到金融行业的方方面面，酝酿一场巨大的“降本增效乃至增收”的行业变革。

技术

深耕技术深度和先进性常常能在互联网行业产生可观的收益，同样的，只要方向对，先进的AI技术用在传统行业的场景里同样能起到事半功倍的效果。

以金融保险领域客服业务场景为例，客服场景业务人员需求量大，且有一定的专业性要求，导致企业用工成本较高。而且，在实际场景中，用户的常见问题占比往往达到60%~70%，这部分重复性工作费时费力，适合通过技术来做智能化处理。许多金融企业都搭建了智能FAQ问答系统，然而，常见的方案有诸多不足：

方案一：基于保险关键字的问答匹配。该方案效果有限，无法对语义信息进行精准建模，且优化起来较为繁琐；
方案二：基于语义匹配搭建问答系统。该方案是越来越常见的做法，但往往需要以人工、半人工方式构造FAQ的“标准问”与“非标准问”，标注成本高，而且经常难以招架真实用户千变万化的表达方式，导致“人工智能”被用户吐槽成“人工智障”，可谓费力不讨好。

而百度研发了先进的端到端智能问答技术RocketQA，不仅在学术竞赛榜单MS MARCO多次刷新记录，而且实现了精准、泛化能力强的语义召回，在实际应用中大大减少了传统离散检索引入的人工构建开销。

RocketQA训练技术，可以借助cross-encoder精排模型的优势，有效地为语义召回模型挖掘困难样本，进而提升系统的语义召回能力；优化后的语义召回模型又进一步的提升了召回样本的质量，有助于后续打造效果更强的cross-encoder模型，提升模型的精排能力和最终的答案准确度。再结合人工标注的百万级问答数据集DuReader，效果非常强悍！

总之，基于端到端智能问答技术RocketQA构建出的FAQ问答系统，不仅构建效率大大提升，且无需标注数据、比传统技术方案具备显著的效果优势。

更进一步的，还可以使用百度今年发布的集可信分析和增强于一体的可信AI工具集TrustAI，问答效果会有进一步提升。对NLP领域数据标注的常见问题，如“训练数据中存在脏数据限制模型效果提升”，“数据标注成本太高但又不清楚该标注什么数据”，“数据分布有偏导致模型鲁棒性差”等，TrustAI发布了多项功能帮助NLP开发者解决训练数据缺陷问题，用最小的标注成本获得最大幅度的效果提升。

以上技术均已开源。对智能问答技术赋能金融行业感兴趣的同学，可以下滑到文末扫码入群，关注百度飞桨&百度智能云举办的AI+金融行业系列课程直播回放，学习AI在金融行业的风控、运维、营销、客服等场景上的实战经验。

然而，如果徒有先进的AI技术，却没有配套的高效落地工具，那传统行业的落地依然困难重重，工具的重要性不言而喻。

工具

“深度学习，NLP啥的太难懂了，我们一时半会搞不定”

——来自行业人员吐槽

“需求场景太多了，人手不够，开发不过来”

——来自AI专业人员吐槽

这是AI在传统行业落地时经常在行业侧和互联网AI平台侧遭遇的灵魂抱怨。

究其原因，就在于大部分的AI落地工具是面向专业AI从业者开发的，对行业落地来说门槛过高或开发效率过低。而市面上的一些门槛低的AI平台又往往会牺牲灵活性，开发时会有较多的限制。

不过，百度飞桨PaddleNLP不久前发布了NLP流水线系统Pipelines，其在易用性、灵活性和定制化方面做了一个很好的折中，是一个非常适合做行业落地的开源工具。

简单来说，PaddleNLP Pipelines将各个NLP复杂系统的通用模块抽象封装为标准组件，支持开发者通过配置文件对标准组件进行组合，仅需几分钟即可定制化构建智能系统，让解决NLP任务像搭积木一样便捷、灵活、高效。同时，Pipelines中预置了前沿的预训练模型和算法，在研发效率、模型效果和性能方面提供多重保障。举个直观的例子：

我们可以把语义检索系统抽象为文档解析、语义向量抽取、向量存储、召回、排序5个基础组件，在此基础上，只需串接1个答案定位模型组件即可构成阅读理解式问答系统。若更进一步，在问答流水线的起点和终点分别加入ASR（语音转换文本）和TTS（文本转换语音）2个模型组件甚至可以构成智能语音客服系统，如下图所示。

而Pipelines就实现了上图一样轻松灵活的开发模式，可将AI模型的上线周期缩短百倍以上。

需要注意的是，在Pipelines背后，不仅有PaddleNLP提供的强大模型生态（包括刷新中文小模型SOTA的文心ERNIE 3.0轻量级模型），而且该框架兼容了飞桨生态下的任意模型、AI开放平台算子、其它开源项目如Elasticsearch等，从而实现任意复杂系统的灵活定制开发。

可以说，Pipelines在灵活易用的基础理念下，又给用户预留了足够的定制化空间，使得用户在面对奇奇怪怪的业务场景疑难问题时，不至于被平台功能给限制。

因此，在Pipelines的生产力赋能下，快速开发一个高精度的金融智能客服FAQ智能问答系统就非常容易了。

同样的方式，我们可以面向金融行业快速开发一个信息抽取模型，来快速落地文首提到的“上市公司公告风险事件提取”、“合同关键信息抽取”等金融业务场景。在信息抽取方面，Pipelines则内置了百度的UIE通用信息抽取技术，其通过多任务统一建模大幅降低了模型开发成本和部署的机器成本，并具备突出的小样本学习能力。例如，在金融领域的事件抽取任务上，仅仅标注5条样本，F1值就提升了25个点！