RPA技术详解与企业应用-CSDN博客

本文链接：https://blog.csdn.net/hongdi/article/details/132558219

RPA（机器人流程自动化）技术能模拟人类执行重复任务，提升效率、降低成本。RPA与AI结合形成IPA，常见AI技术如计算机视觉CV和自然语言处理NLP在RPA中应用广泛，如CV用于界面元素识别，NLP用于文档处理和文本审核。RPA应用价值包括提升企业效率、降低人工风险和打通业务系统。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是RPA技术？

RPA（Robotic Process Automation）机器人流程自动化，是一种能够模拟人类来执行重复性任务的新型技术。RPA可实现统筹安排、自动化业务处理，并提升业务工作流处理效率。用户只需通过图形方式显示的计算机操作界面对RPA软件进行动态设定即可。借助RPA (Robotic Process Automation) 可以提高工作效率、节省成本、大程度降低出错率、节省时间、并从重复性的后台任务中解放劳动力。

在达观数据出版的《智能RPA实战》中是这样定义的：通过特定的、可模拟人类在计算机界面上进行操作的技术，按规则自动执行相应的流程任务，代替或辅助人类完成相关的计算机操作。

RPA本质上是一种能按特定指令完成工作的软件，这种软件安装在个人计算机或大型服务器上，通过模拟键盘、鼠标等人工操作来实现办公操作的自动化。

RPA也被形象地成为数据化劳动力（Digital Labor）。

二、什么是IPA技术?

1.IPA

自2015年以来，随着AI技术的发展，RPA的各项技术能力得到了强化，AI与RPA结合形成为IPA技术（Intelligent Processing Automation）,即智能流程自动化技术。

智能RPA的构成：RPA+AI=IPA

通常把 RPA 比作抓手、AI 比作大脑。AI 负责思考，RPA 负责行动。RPA 是一个数字化平台，可以调用计算机所有软硬件能力。AI 可以作为其中一个智能组件存在，被 RPA 调用。AI 也可以作为 RPA 的一部分进行赋能，比如智能化机器人调度逻辑。

RPA主要应用到AI技术有：计算机视觉(Computer Vision,CV)，自然语言处理（Natural Language Processing,NLP），自动语音识别（Authomatic Speech Recognition,ASR）等。

例如：使用CV技术强化RPA界面元素识别能力、使用NLP提供RPA执行任务过程中的智能决策、使用ASR技术提供音频识别等等。

目前，CV和NLP技术在RPA中应用比较广泛。下面简要介绍这两项技术。

2.计算机视觉CV

2.0 CV概述

计算机视觉是一门研究如何让计算机理解和处理图像、视频等多媒体数据的学科，其目标是通过算法和技术来实现对图像和视频的自动分析、识别、分类、跟踪等功能。

计算机视觉包括以下几个基本概念：

图像：图像是由像素组成的二维数组，其中每个像素都代表了图像上的一个点的颜色信息。

视频：视频是由一系列连续的图像组成的序列，可以通过快速播放来观察动态场景。

特征提取：特征提取是指从原始数据中提取出有代表性的特征向量的过程，常用于图像分类和识别中。

分类器：分类器是指用于将输入数据分为不同类别的模型或算法，常用于图像分类和识别中。

目标检测：目标检测是指在图像中检测出特定目标的位置和边界框的过程，常用于安防监控和自动驾驶中。

跟踪：跟踪是指在连续的视频帧中追踪目标位置和姿态的过程，常用于运动目标分析和姿态估计中。

计算机视觉的基本流程包括以下几个步骤：

图像预处理：在进行计算机视觉任务前，需要对输入的图像进行预处理，例如图像增强、降噪、裁剪等操作，以提高后续处理的效果和效率。

特征提取：在进行目标检测和分类等任务时，需要从原始数据中提取出有代表性的特征向量，常用的特征提取方法包括卷积神经网络(CNN)、SIFT、SURF等。

模型训练：在进行分类和识别等任务时，需要使用机器学习或深度学习算法对提取的特征进行训练，常用的算法包括支持向量机(SVM)、随机森林(Random Forest)、卷积神经网络(CNN)等。

目标检测和跟踪：在进行目标检测和跟踪等任务时，需要在连续的视频帧中检测出目标的位置和姿态，并对其进行跟踪。常用的算法包括基于区域的方法、基于滑动窗口的方法、基于光流的方法等。

结果评估：在完成计算机视觉任务后，需要对结果进行评估和优化，以提高任务的准确性和效率。常用的评估指标包括准确率、召回率、F1值等。

在 RPA 中，常见的 CV 技术有模板匹配、光学字符识别、目标检测等。

2.1 模板匹配 Template Matchimg

模板匹配是一种最原始、最基本的模式识别方法，研究某一特定对象物的图案位于图像的什么地方，进而识别对象物，这就是一个匹配问题。它是图像处理中最基本、最常用的匹配方法。模板匹配具有自身的局限性，主要表现在它只能进行平行移动，若原图像中的匹配目标发生旋转或大小变化，该算法无效。

模板匹配是大图中定位小图（模板）的算法。比如在桌面中定位一个图标的位置、寻找窗体中的一个按钮等。

2.2 光学字符识别 Optical Character Recognition,OCR

OCR是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

RPA应用中，通过输入一张图像，OCR 模型分析处理后，输出图像上的结构化字符信息（字符的坐标、字符的具体值）。比如验证码识别、提取发票上的信息等。

2.3 目标检测 Object Detection

目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。

目标检测包含两层含义：
判定图像上有哪些目标物体，解决目标物体存在性的问题；
判定图像中目标物体的具体位置，解决目标物体在哪里的问题。

计算机视觉中关于图像识别有四大类任务：

（1）分类-Classification：解决“是什么？”的问题，即给定一张图片或一段视频判断里面包含什么类别的目标。

（2）定位-Location：解决“在哪里？”的问题，即定位出这个目标的的位置。

（3）检测-Detection：解决“在哪里？是什么？”的问题，即定位出这个目标的位置并且知道目标物是什么。

（4）分割-Segmentation：分为实例的分割（Instance-level）和场景分割（Scene-level），解决“每一个像素属于哪个目标物或场景”的问题。

所以，目标检测是一个分类、回归问题的叠加。

目标检测的核心问题
（1）分类问题：即图片（或某个区域）中的图像属于哪个类别。
（2）定位问题：目标可能出现在图像的任何位置。
（3）大小问题：目标有各种不同的大小。
（4）形状问题：目标可能有各种不同的形状。

通过给计算机输入一张图像，让计算机分析出其中的物体。比如分析一个应用窗体内的所有控件（按钮、编辑框等）来进行后续的 RPA 操作。

3.自然语言处理NLP

3.0 NLP概述

NLP（Natural Language Processing，自然语言处理）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

3.1 NLP由两部分组成

（1）NLU（Natural Language Understanding，自然语言理解）

NLU是所有支持机器理解文本内容的方法模型或任务的总称，包括分词，词性标注，句法分析，文本分类/聚类，信息抽取/自动摘要等任务。简单来说，就是希望计算机能够像人一样，具备正常的语言理解能力。

（2）NLG（Natural Language Generation，自然语言生成）

NLG是一种自动将结构化数据转换为人类可读文本的软件过程。基本步骤如下：

第一步：内容确定 – Content Determination
作为第一步，NLG 系统需要决定哪些信息应该包含在正在构建的文本中，哪些不应该包含。通常数据中包含的信息比最终传达的信息要多。
第二步：文本结构 – Text Structuring
确定需要传达哪些信息后，NLG 系统需要合理的组织文本的顺序。例如在报道一场篮球比赛时，会优先表达“什么时间”“什么地点”“哪2支球队”，然后再表达“比赛的概况”，最后表达“比赛的结局”。
第三步：句子聚合 – Sentence Aggregation
不是每一条信息都需要一个独立的句子来表达，将多个信息合并到一个句子里表达可能会更加流畅，也更易于阅读。
第四步：语法化 – Lexicalisation
当每一句的内容确定下来后，就可以将这些信息组织成自然语言了。这个步骤会在各种信息之间加一些连接词，看起来更像是一个完整的句子。
第五步：参考表达式生成 – Referring Expression Generation|REG
这个步骤跟语法化很相似，都是选择一些单词和短语来构成一个完整的句子。不过他跟语法化的本质区别在于“REG需要识别出内容的领域，然后使用该领域（而不是其他领域）的词汇”。
第六步：语言实现 – Linguistic Realisation
最后，当所有相关的单词和短语都已经确定时，需要将它们组合起来形成一个结构良好的完整句子。