simulink怎么生成vxworks的执行程序_论文解读——使用Web内容挖掘的自适应动画生成...

摘要:

  1. 背景:创建3D动画是一项劳动密集型且耗时的过程,设计人员需要专门学习设计软件。另一方面,语言描述的可视化图像具有概念简单性和自然性。
  2. 问题:怎么样才能减少创建3D动画的成本,降低设计人员学习设计软件的时间,并且充分利用语言描述的可视化图像的概念简单性和自然性?
  3. 方法:本文介绍了一种交互式的自适应动画生成系统。该系统:
  • 利用数据驱动技术从Web提取所需的常识和特定领域知识。(自动获取知识)
  • 能够根据用户的语言命令创建3D动画。(文本——>动画)
  • 它使用用户交互作为相关反馈,以学习隐式设计知识,更正提取的知识并以主动和渐进的方式操纵虚拟世界的动态。(使用交互信息提升动画性能)
  • 此外,系统是基于多代理方法设计的,该方法为其提供了分布式处理功能和跨平台特性。(着重于信息检索代理,该代理负责使用Web挖掘技术提取用于对象属性,时空关系和环境动态的数值数据)

引言

阐述背景之后说明该研究动画自动生成系统迫在眉睫。然后讲述最近的全面用户研究对比,自然语言的界面与计算机动画环境中常规GUI的控制之间的创造力和学习能力。 结果表明对虚拟对象和动画设计的高层控制方面以及学习软件和设计耗时自然语言界面更优。

设计自动动画可视化系统需要整合AI模型,例如:自然语言理解(NLU)、知识表示(KR)、规划、推理和计算动画技术。以下是其面临的挑战:

  • 最具挑战的是自然语言理解(捕捉语言中深层次语义),动画生成NUL常用组成有:时空约束命名实体描述性修饰语成分(组成)、解决回指解析语义角色标签、通过推断隐性知识来消除描述的歧义。
  • 知识表示KR是另一个重要挑战,自然语言中捕获的语义表示为高级概念,需要以低级图形对象时空约束虚拟世界中的动态为基础。
  • 映射过程包括将每个高级概念分解为以串行或并行方式运行的一组低级图形指令,并对这些指令进行参数设置。
  • 从软件工程的角度来看,另一个挑战源于系统的可扩展性和通用性。 对于特定领域而言,收集用于开发此类系统的必要工具(例如词典,规则库,知识库,约束模式和操作分解)非常简单。 但是,为通用系统执行相同任务需要高级学习和信息检索方案。

相关工作

在计算机图形学中使用自然语言处理可以追溯到上世纪70年代,旨在使用严格受限描述生产二维静态场景的系统。

90年代的 PUT系统和SHRDLU ,可以在受限的环境(空间摆放语法限制)中提供基于语言的3D对象的良好操纵。

后来本世纪初,引入了一种更通用的系统,即WordsEye ,该系统主要由语言分析器和场景描述器组成,通过对文本关于空间信息、空间关系进行研究,建立了用于识别和处理文本场景的词汇知识库(SBLR),并随后在商业应用中不断对知识库和3D模型库进行扩充,使其成为近年来文静转换中最为成功的应用研究之一。尽管此系统得益于庞大的可视数据数据库,但它并未设计交互式系统,也没有利用用户交互进行主动学习。而且,它依赖于手动嵌入的规则和对象注释,这些规则和注释限制了对象的通用性。

最近的工作依靠使用数据驱动的模型学习简单的空间知识,并通过与用户的交互来完善所获取的知识。例如在14年的“交互式学习空间信息”中,系统能够使用从用户交互中提取的条

件概率来学习支持层次结构,对象名称和简单的空间关系。

系统结构

0f4cd5aa4e4d16c98c1753a62023588e.png

动画生产系统结构图

整体来看:

  • 系统是基于多代理方法设计的,支持分布式面向服务的处理,代理之间分配任务可以提高系统的整体计算性能,并提供封装特性。改变一个代理不会影响其他代理正常工作。
  • 使用可视化界面作为管理系统与虚拟世界交互的中间件,可以使系统独立于目标图形3D引擎和用户界面,提供跨平台特性。

语言处理代理:与认知代理和用户交互。如接受用户语言命令(世界和视点操作),返回执行成功或信息检索代理提供的信息。组成部分为:自然语言理解和自然语言生成部分。自然语言理解提取视觉语义信息如对象、时空约束和操作等,并映射到认知代理理解的预定知识表示形式。自然语言生成负责确认输入命令的成功和失败,利用当前状态、检索到的信息和规则库来生成输出。

信息检索代理是本文的主要重点,它负责向认知代理提供有关对象属性的所需信息。 要执行此任务,它遵循两个步骤。 第一步,它使用接收到的查询从Web检索相关文档。 为此,它利用Google搜索引擎并存储前K个排名最高的文档。 然后,它将文本挖掘技术应用于检索到的文档集,以提取所需的信息。 该代理的行为类似于问答系统,该系统尝试检索查询的确切答案,而不是检索文档。 另外,为了增加答案的置信度,它返回包含要呈现给用户的答案的文本块。

认知代理是系统的核心主体,协调其他两个代理的活动和交互,控制中间件,并执行高级认知功能,例如计划,推理和学习。认知代理从语言处理代理从用户的语言描述中提取提取的语义,然后为该代理提供虚拟世界状态的高级表示。

该代理组成:审议计划程序,常识知识库,世界模型知识库,反应式计划程序,智能执行程序和状态估计和鉴定模块。

该代理利用接收到的语义来确定要在虚拟世界中执行的一组动作。换句话说,它将包含对象,动作和关系的接收到的语义转换为系统在满足约束条件下尝试执行的一组动作。具体流程如下:

  • 使用其审慎的计划程序来确定智能高管要执行的一组操作,同时监视执行过程。而且,它利用其反应式计划程序在无法预测的情况下修改操作。
  • 认知主体与信息检索主体根据需求和网上对应需求的答案信息进行交互,认知代理检测到有关对象属性的丢失信息,并将其作为查询发送给信息检索代理,信息检索代理又为认知代理提供从网络中提取的相应信息。
  • 嵌入的常识知识库的认知代理通过观察用户如何创建虚拟世界来学习隐式设计模式,然后向用户提供基于学习模型的设计建议。 该知识库以增量方式学习模型。
  • 世界模型知识库为认知代理提供虚拟世界当前状态的高级表示。 这些状态由状态评估和识别模块从虚拟世界获取的低级感知映射到世界模型知识库应用的高级表示。
  • 最后,智能执行程序和反应计划程序执行审议计划程序发送的动作,并监视执行过程,并对执行过程中的意外情况做出反应。

信息检索代理

信息检索代理从认知代理接受查询,返回从web上抽取的有关查询的相关信息。一个查询定义为

Q = 

Q表示查询,O表示有关的对象列表,A表示相应对象的属性集合

例如 Q= ;查询O1=Earth和O2=Sun之间distance。返回V,V是相应的distance属性值的集合。

信息检索代理的目标是捕获并排列一组数字信息。但是由于嵌入在Web内容中的噪声,从Web内容检索准确的信息并不是一件容易的事。为了执行此任务,信息检索代理在包括爬网预处理排名步骤的三步管道中使用统计Web挖掘技术。

  1. 爬虫

查询由一组命名实体和一组对应的属性组成。首先扩大使用从WordNet中提取的每个属性的同义词集。下一步是找到一组包含有关查询信息的文档。使用Google提供的JSON自定义搜索API来执行此任务。通过查询Google搜索引擎提取排名前50位的文档。将提取的Web文档存储在代理中的本地存储库中,以进行进一步处理。

  1. 预处理

预处理由一组过滤器组成,这些过滤器可优化嵌入到存储文档中的半结构噪声信息。 它通过过滤非信息性内容并规范化信息来提高检索精度和查全率,从而减轻了维度诅咒的影响。 预处理在以下四个连续的步骤中完成:

  • 删除无意义的内容

通过提取存储文档中具有高相关性的信息,删除其余部分达到降维效果。使用嵌入式标签分割HTML文档。 我们利用了一组嵌套的正则表达式来过滤掉那些未提及的HTML标签。

  • 对文档进行规范化

规范化文档的第一步是消除Unicode模糊性,英文字母的大小写也被认为是歧义的。为了解决此问题,构造了Unicode转换字典。将输入Unicode字符转换为其预定的标准格式。 除字典中未包含的数字外,所有剩余的Unicode字符(例如标点符号和其他语言的Unicode字符)均从文档中截取。

因此,剩余信息为英语的标准化Unicode码。之后进行分词,进行下一步操作。

  • 提取词干

词干提取是将派生词还原为词根的过程,这反过来又增加了召回率,而又不降低准确性。 我们利用基于字典和基于规则的提取词干。

  • 删除功能词

通常,功能词(也称为停用词)定义为对语义的贡献可忽略不计的词,因此被视为冗余噪声的来源。 信息检索代理利用语义词的合并(即,意义不大的词来表达语法关系,例如“ the”,“ are”,“ from”。) 包括文章,代词,介词,连词,辅助动词,感叹词,质点,代词和韵律,以及英语单词中最常用单词的前2%,以构成功能词词典。 该词典用于匹配和消除文本信息中的功能词。

  1. 排名

前面两个步骤之后得到一组改进的和包含输入查询答案的标准化文档。

接下来定义一种机制来精确定位这些文档中的一组潜在答案,并根据它们与查询的相关性对这些答案进行排名。 排名最高的答案将被视为输入查询的最终答案。

排名过程始于在文档中查找输入查询的对象和属性。 然后,它将在文档中找到所有数字数据。 在下一步中,它将利用一组度量来确定每个数值数据与一组对象和属性之间的后验关联概率。 该概率表明数值数据和查询之间的语义关系的强度。 在当前系统中,考虑四种措施来确定该概率

  • 第一项措施是衡量当前文档的重要性,而当前文档中又定义了该文档中术语的重要性。采用Google使用的PageRank算法对检索结果中的网站进行排名。 Google搜索引擎将检索到的文档按照与它们的相关性进行降序排列。 使用这种排序方案,我们使用(1)定义了文档的重要性。| D | 是本地存储库中的文档总数,该总数为50,α是设置为0.1的平滑权重,R(di)是Google检索到的文档中的文档i的等级。SGR(di)是谷歌排名分数。
dc9e0e328f59ed2e3038740bdc51e057.png

Google搜索文档排名分数

  • 第二项措施是确定有关当前文档的查询的重要性。 换句话说,此度量用于定义查询与正在处理的文档的相关性。 使用由(2)计算的众所周知的频率倒数(tf.idf)来获取此度量。其中t是给定项,d是文档,tf(t,d)是在文档d中该项t出现的总数,| d | 是文档d中的术语总数, | D | 是文档总数,而df(t)是出现t项的文档数。本质上,此元素表示文档中的单词很重要,如果该单词在该文档中频繁出现而在其他单词中很少出现 文件。 任何给定项的tf.idf都在[1,log2 | D |]的范围内,该范围需要规范化为[0,1]的范围以符合概率规则。 为此,我们使用max-min归一化来标准化此元素,如(3)所示。
61d5fa10be22d041036828752af13db0.png

TF-IDF计算公式

3d627bd23e4c3544e8cfb15058f58cf5.png

TF-IDF归一化

e8e853770a3a484141ff239f64200c79.png

计算文档di与查询的相关性

  • 第三项措施是根据术语出现的文档片段的重要性及其外观来确定术语的重要性。 我们利用HTML标签和字体大小来解决。 为了确定给定术语的总标签得分,我们使用(5)计算该术语出现的所有标签的总得分。STag(t,d)表示文档d中术语t的总标签分数,ST(t)表示标签类型T的标签分数,并定义为一组恒定值,如表I所示。
10b1f7be565e94ee9479aed41f119071.png

HTML标签和字体大小计算重要性

736f5882c9edbbb5362ded2556389277.png

HTML标签的分值表

SFS(t)是与使用(6)所示的线性公式计算的术语t的字体大小相关的分数。 FS表示字体大小,并指出一个术语的较大字体大小表明其重要性。

29b92eda497286cbc606922be1919692.png

我们将与文档d相关联的术语t的总标签重要性归一化为[0,1]的范围,方法是将该术语已获得的总标签得分除以给定术语可能获得的最大可能标签得分。 该归一化在(7)中示出。

ba31203d6e842051fe493ac5a95c4749.png

NTag(t,d)是术语t与文档d关联的归一化总段和外观重要性。 现在,我们可以使用(8)确定文档di中查询Q的总标签和外观重要性。

8c5a65e49afe66f623c1699eaf3ec61a.png
  • 第四个措施是计算查询和数字数据之间的关联强度。 为了完成此计算,它会测量文档中的数字数据与查询词之间的物理距离以及该数字数据周围的查询词的密度,以确定它们之间语义关联的程度。 直觉上,那些看起来更接近数字数据的查询词在文档布局中在其邻域中出现频率更高,这在语义上与该数据更相关,这意味着数字数据更有可能成为查询的答案。 为了计算该因子,我们利用数值数据之间的曼哈顿距离和该数据两侧的l = 200个项。 如(9)中所示计算该元素。
5d619735963ee97d8ede8edc7e5020a0.png

其中SD(Q,di,Nk)是距离和密度得分嵌入在查询Q中的查询项qj和包含在文档di中的第k个数值数据之间。 Fqj是查询词qj在数字数据Nk附近的同时出现频率。 l表示设置为200的邻域边界,将其求反并乘以频率基于标准化目的而获取的文档。 Pos(t)是术语在文档中术语的相应索引内的物理位置。

最终,我们将查询Q的后验概率与文档di中的数字数据Nk进行语义关联,作为上述四个因素的点击,如(10)所示。计算查询与文档di中所有数字数据之间的后验概率,得出关联向量,如(11)所示

3c00c44f867e16a26aab7097cacc28a2.png
b1ca2525a43688848ff464754412caa8.png

Pdi(Q)是文档di的查询数据关联概率向量,其中第k个元素表示查询Q与数字数据Nk语义关联的后验概率。 | N | 是文档di中的数字数据总数。 最后,我们可以使用(12)定义表示查询和所有存储文档中所有数值数据之间的后验概率的向量。

74e7b0d06ef45356120ce244970b98ae.png

现在我们有了关联概率的形式表示,我们可以对与查询具有最强关联的前K个数据进行排名和检索。 表II显示了此检索和排名过程。

edb393c0207e4d1d012bbab17d125e50.png

该算法定义了两个输出集,分别是数字数据和文本段,它们最初是空的,并且其大小设置为K。该算法进行迭代直到输出集已满。 在每次迭代中,将所有有关查询Q的关联概率最大的文档中的数字数据插入到包含数字数据的集合中。 对应文字提取出现数据的片段并将其插入到包含文本片段的集合中。 最后,将数据从关联概率向量中删除。 因此,下一次迭代会将有关其关联概率的第二最强数值数据添加到输出集中。 最后,将这两个集合作为对查询的前K个答案以及它们出现在其中的相应文本段的返回。在返回的集合中,每个条目的相应索引确定其排名。 例如,第一个条目中包含的数据代表查询的最强候选答案

实验

我们使用该系统生成太阳系的动画。 在此实验中,用户以自然语言与系统进行交互,并要求其创建太阳系。 此方案所需的视觉信息由信息检索代理自动提取。 用户与系统之间的对话显示在表III中。 生成的动画的快照如图2所示。

b502405d774d2c471496912964552d71.png

对话记录

adb7886b79673a09c494527e3541dcf6.png

生成太阳系实验结果

信息检索代理根据给定查询的正确答案和错误答案进行评估。 为此,系统将基于35个查询来评估系统,其中包括太阳系内行星的大小,行星的旋转速度,半径以及这些查询与太阳之间的值得注意的行星距离。 可以通过解决信息检索代理,因为他们的数字答案。 信息检索组件的性能使用分别由查准率和查全率以及F1分数这三个因素来衡量。 表IV中列出了基于这三个分数对提到的查询检索到的答案的评估结果。

37dfdfbb0b3cbc76c12b36bc9ebac998.png

结论

在论文中介绍了一种多代理,交互式和自适应动画生成系统,该系统能够使用其嵌入式信息检索代理从Web内容中提取有关对象属性,空间关系和动态的所需视觉信息。 该代理使用统计信息检索和排名技术来提取所需的信息。 实验结果表明,该代理可以查准率,查全率和F1分数分别为0.78、0.62和0.68检索此信息。 此外,结果显示,使用查询扩展平均可以分别将这些措施提高16%,12%和14%。 使用这种方法,系统可以在不同场景中自适应地生成新动画,而无需先验视觉信息。 最后,可视化显示结果的自然性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值