百分点认知智能实验室：NLP模型开发平台在舆情分析中的设计和实践-CSDN博客

本文链接：https://blog.csdn.net/Percent_bigdata/article/details/109307912

本文介绍了百分点认知智能实验室的NLP模型开发平台在舆情分析中的设计和实践，该平台实现了从数据上传、标注、训练到发布的全流程可视化操作，解决了传统方法在业务扩展性和易用性上的局限。平台支持NLP模型的快速开发，赋能业务人员参与模型创建，提高了效率。在舆情分析中，平台通过集成Bert等模型，提升了信息检索的相关度，并简化了离线标签处理过程。

摘要由CSDN通过智能技术生成

舆情分析的赋能者：NLP模型开发平台设计实践

编者按

NLP模型开发平台是以快速打造智能业务为核心目标，无需机器学习专业知识，模型创建-数据上传-数据标注(智能标注、数据扩充)-模型训练-模型发布-模型校验全流程可视化便捷操作，短时间内即可获得高精度NLP模型，真正为业务赋能。

在北京百分点信息科技有限公司的NLP模型开发平台发布后，舆情分析业务中上线了超过200个个性化定制实时预测模型，依靠强大的资源调度和计算平台，每天都会有数十个模型在进行迭代更新和优化，真正实现全流程的数据和模型的闭环。本文主要介绍NLP模型开发平台的架构和实现细节，以及舆情业务中的应用，希望能为大家提供一些参考。

一、背景介绍

本文中重点介绍NLP模型开发平台在百分点舆情洞察系统(MediaForce)中的设计和实践。MediaForce是一款面向政企客户，提供信息监测、智能分析等多功能的一款SaaS产品。从2014年发展至今，客户标准化的建立以及数据资产的积累，为开展自动化和智能化打下了坚实基础。对内要提高生产和运营效率，缩短行为结果的反馈时间；对外要提供个性化服务，提高客户亲密度。舆情信息是通过关键词检索来获取对应的相关数据，在基于BM25、TF-IDF等传统信息检索机制下，只是考虑关键词和文档的匹配程度，忽略了文档主题、查询理解、搜索意图等因素，致使召回文档与客户诉求相差较大。另一方面，在客户定制化场景下，需要人工对客户数据进行标签处理，这是一个极其费时费力的过程。

在一个NLP模型开发任务中，一般包括如下三个大模块：

舆情分析的赋能者：NLP模型开发平台设计实践

在早期，主要是围绕和重复这三个模块来支持业务。在业务规模小时，人工方式保证了工作的灵活与创新突破，但是随着业务模式的成熟与增长，逐渐凸显出人工方式的局限性，主要体现在如下几个方面：

（1）NLP模型开发任务的增多，无疑增加开发人员的维护工作，尤其是在算法迭代更新、模型版本管理等方面，将是灾难性质的。

（2）业务人员是核心业务的把控者，但是由于模型学习门槛相对较高，使其参与度大大降低。

而NLP模型开发平台的构建不仅能解决以上问题，也更将聚焦算法工程师模型开发和基准验证，使分工更加明确、全民参与。集数据管理、模型全生命周期管理、计算资源和存储资源统一管理等特性，力求达到以下目标：

（1）复用性：通用算法集成、算法管理、避免重复造轮子。从脚本开发到可视化操作，专注于算法效果提升和模块复用。

（2）易用性：即便是运营(业务)人员，也可以定制私有业务模型，真正实现业务赋能。依据自己的个性化诉求可进行数据标注、模型训练、效果评估、模型发布等操作。

（3）扩展性：算力资源可扩展、模型算法框架(TF、Pytorch、H2o)可扩展、语言(Java、Python、R)可扩展。

二、NLP模型开发工具栈回顾

在传统软件开发中，我们需要对程序的行为进行硬编码，而在NLP机器学习模型开发中，我们将大量内容留给机器去学习数据，开发流程上有着本质的不同，如下图所示：

舆情分析的赋能者：NLP模型开发平台设计实践

许多传统软件工程工具可用于开发和服务于机器学习任务，但是由于机器学习的特殊性，也往往需要自己的工具。比如：Git通过逐行比较差异来进行版本控制，适用于大多数软件开发，但是不适合对数据集或模型检查点进行版本控制。在2012年随着深度学习的兴起，机器学习工具栈种类和数量爆炸式增长，包括All-in-one(一站式机器学习平台)：Polyaxon、MLFlow等，Modeling&Training(模型开发