探索人机深度融合的高可用性人工智能应用

本文探讨了人工智能落地中人工智慧的重要性,强调了在问题拆解、模型选择与优化、知识图谱构建及场景选择和产品设计中的角色。通过案例分析,展示了如何在NLP项目中运用人工策略,如文档抽取、知识图谱辅助智能制造,以实现人机协同提升AI性能。
摘要由CSDN通过智能技术生成

目前,人工智能技术在世界范围内热度极高,但却出现了“雷声大、雨点小”的现象。一方面,随着近年来深度学习技术的不断发展,计算能力的不断提高,更深更复杂网络的普及使用,加上深度学习端到端的特性,看起来好像人工智能就是端到端的标注,不断地做数据清洗,增加标注数据,加深模型参数,就可以实现计算机像人类一样工作。另一方面,人工智能在实际应用场景落地时经常失败,常听到有“只见人工,不见智能”,“有多少人工就有多少智能”的吐槽。因此,目前许多人工智能技术的实现现阶段还不能脱离人工经验。

人工智能落地需要人工智慧,这里核心在于结合场景和算法特点做合理的设计,而非关注更多标准化的标注或者设计更精深的算法网络。达观是ToB的自然语言处理(NLP)公司,主要做办公文档自动处理。近年来在金融、政务、制造业等行业成功落地了非常多的NLP项目。

NLP也被誉为人工智能皇冠上的明珠,AI落地特别是NLP落地尤其不容易,通过机器处理办公文档远比从一堆图片中找出有猫的图片要复杂得多。因为让机器处理办公文档,往往存在缺少大量的训练语料情况,不同行业间需要处理的具体问题千差万别,人工都需要专业培训甚至几年工作经验才能处理妥当。本文主要结合达观的实践落地经验,探讨在具体NLP项目落地时,计算机“智能”需要哪些必不可少的“人工”。

“人工”化繁为简,拆解复杂问题

人工智能难以落地的主要原因之一是要处理的问题过于复杂,如果只靠算法模型的自学习,很难学到对应知识,从而作出正确决策,就像用大学生的题目考小学生,不可能考得好。但如果我们能人工对负责问题进行拆解,分解成多个简单问题,那每个简单的问题可能通过模型就能解决。但如何拆解?拆解成什么程度模型是可以处理的呢?达观的经验是:当面对一个NLP问题,人类看完后立刻就能反应出结果的,这样的问题模型就是我们定义的“简单问题”,是机器可以解决的。下面以合同文档抽取的场景为例帮助大家理解。

假设我们需要构建模型从PDF格式的合同中抽取出甲方、乙方、违约条款等字段信息,看看机器是怎么一步步进行拆解的:

首先看机器的输入数据。PDF格式内部只是规定了每个字符或者线条应该在屏幕上什么位置,这些元素本身没有任何语义上的信息,在计算机看来这份文档其实只有字符以及其位置等简单信息,并没有人看渲染好的PDF文件的对齐、大小、重要性等更多信息。如果通过端到端的方式,把文字以及坐标一起输入到模型,让模型自己学习文档结构,理论上可以抽取出需要的字段。这种方式乍听之下可以一试,但实际效果是非常差的。因为让人看到一堆字和坐标,希望判断出抽取的字段,那本身就是非常复杂的事情,所以我们还需要进一步拆解。

 文档解析模型负责解析PDF协议,并且通过一定算法将文档结构化,也就是转成章节、表格、段落等文字流,再输入到字段抽取的模型。这两个模型是否足够简单并能落地呢?

大部分文档下,哪个是文字块,哪个是表格&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值