直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类

百度_开发者中心

于 2022-04-01 15:07:57 发布

阅读量1.3k

点赞数 1

分类专栏：百度APP技术飞桨PaddlePaddle 文章标签：大数据人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41888295/article/details/123898533

版权

百度APP技术同时被 2 个专栏收录

32 篇文章 2 订阅

订阅专栏

飞桨PaddlePaddle

20 篇文章 0 订阅

订阅专栏

一个审核员一天只能审核5000条文本信息，而在线的UGC资讯网站往往平均一个小时接收的文本信息可能超过百万条。与此同时，还需要将杂乱的内容进行分类并发布到不同的专栏页面……信息爆炸的时代，海量信息的处理能力对各大互联网平台来说是核心竞争力之一。

如何运用AI技术处理海量内容并能真正捕捉高价值信息，也是目前企业持续探索的领域。

从内容的生产到发布流程复杂且人工效率低

维持资讯类or内容类网站需要大量的文本、图片、视频等信息，信息来源包括：用户自生产、平台自运营、网站爬取等各种方式。

杂乱的标题信息

海量信息处理需求VS效率低的人力审核分类，可想而知，很多优质或时效性极强的内容与大众擦肩而过。

资讯内容快速增长需要借助AI提供高效的信息处理手段

某企业主要经营新闻资讯网站，伴随业务及用户体量增长，网站需要对审核完成的文章快速发布到不同的专栏，如政治、财经、文化、娱乐等，但仅凭人力是无法完成这一诉求。

企业前期也在尝试组建算法团队通过传统AI开发方式进行开发，但很快发现需要克服的问题很多
如何降低业务探索阶段的成本投入？
模型训练依赖数据，网站标题内容覆盖广数量大，如何高效完成数据处理？
网站文章标题种类多、语义复杂，如何能确保训练模型的精度效果？
高日活的网站，对预测时延要求高，AI自动文本分类能达到预期效果吗？

带着这些疑问，新闻资讯网站的技术负责人接触到了飞桨EasyDL，结合对文章标题的处理逻辑，选择适用的任务类型-文本分类。

最终实现10000条文本信息使用智能标注仅耗时1小时，同时零代码训练出精确率达到90%以上的可用模型，快速投入网站文本处理中。

从原本需要成本达百万级的算法投入，到现在零开发成本；从原本需要1年开发周期才可能上线AI自动文本分类到现在仅用3个月完成AI模型开发及完整方案上线……这些成果让该新闻资讯网站快速实现了AI高效处理信息的业务模式。

基于文心大模型底座你也可以实现高精度AI模型诉求

该新闻资讯网站之所以能够利用EasyDL快速实现文本自动分类，背后依赖百度飞桨文心·NLP大模型的技术加持。

通过内置文心大模型底座的高精度算法，用户可以完成复杂场景的高精度模型训练，比如上述提到的案例中网站标题繁多且语法不统一的问题，就可迎刃而解。

同时，无需准备大量数据集也可获得高精度的模型投入实际应用。

文心大模型能够同时从大规模知识和海量多元数据中持续学习，如同站在巨人的肩膀上，训练效率和理解准确率都得到大幅提升。

文心大模型的优势

内置百度飞桨文心·NLP大模型的EasyDL零门槛AI开发平台，提供更加便捷的一站式AI开发能力，数据标注、模型训练、服务部署都可以在一个平台简单并连贯地实现。AI模型训练环节不需要编写代码，也不需要深度学习的算法背景，就能轻松完成。

4月12日晚20:00—21:00，AI快车道-评论观点抽取专场公开课，将深入探讨各行业网站运营趋势及痛点，剖析AI赋能下的平台智能化转型升级突破口。

直播中为大家准备了诸多飞桨EasyDL落地案例：新闻资讯平台、政务服务平台、电商平台的AI实践经验，或许从案例中你会收获更多灵感。

不止如此，我们还带来了3天实训打卡营，手把手带你快速启动自己的评论观点抽取AI模型。扫码立即报名，NLP业务应用时不我待~

扫码报名直播课，加入行业交流群

👇

关注【飞桨PaddlePaddle】公众号
获取更多技术内容~

百度_开发者中心

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。