调研报告
一、项目概览
- 人工智能微体验平台(gao)[聊天对话机器人+TOONME]
- 购物商城网站(gao)
- 基于知识图谱的医疗问答系统(gao)
- 人体动作预测——操控机器人(zhang)
- 基于图像识别的Word表格检测和识别(li)
二、具体项目介绍
- 在优化重构上学期照片打假系统的基础上,拓展功能点如下:
-
虚拟机器人聊天功能(数据集初步来源为手工编写样例),类似于智能客服。模型使用[XLNet ](https://blog.csdn.net/weixin_37947156/article/details/93035607)
-
图片卡通化,(参考toon me。缺点,模型效果远远不如adobe的PS),数据集合使用中科院CAS-PEAL-R1.
创新点:较之于百度,腾讯,讯飞AI体验中心的大而全。我们针对性的将AI领域的图像取证与图像卡通化进行融合,并辅之以智能客服的帮助。使AI一键即达。
-
购物商城,(参考小米购物网站,采用Tornado框架,利用本学期的Recommendation system知识)
-
基于知识图谱的医疗问答系统,数据集来源于网络样例,展示页面采用flask框架,数据库软件采用neo4j。
-
人体动作预测——操控机器人
-
创新点:现有的类人型机器人的操控,有很大延迟。不能满足实际需要。例如在救灾,侦查的方面。对及时性要求较高。
此项目预想通过摄像头捕获操作者人体,并对其进行0.5s内的动作预测。并将预测后的结果传输到机器人。已追求实时性。 -
功能列表:
- 人体检测(捕获操作者的人体)
- 姿态检测(判断人体所处状态并标记)
- 动作预测(依据检测好的状态,预测人体下一步动向)
- 将预测结果传输给机器人(实现实时控制)
-
算法实现:基于视觉(vision-based)的单目人体姿态估计(HPE)
-
预估实现难度:
- 动作预测数据的获取
- 计算机与机器人的交互
- 机器人的获取
数据集来源
(东京工业大学开发可以预测 0.5 秒后的动作的「FuturePose」AI 系统)
-
包含内容
-
题目
遗憾:未从生活实际着手(生活中哪里不完善),发散思维,不是聚焦到一个非常具体的点。 -
创新点:在现有项目的基础上,进行尽可能有意义的融合。
-
预估实现难度、2>5>1,3>4>
-
- 基于图像识别的Word表格检测和识别
-
创新点:基于图像的表格分析的优势体现在其对文件类型的稳健性,并对文件是页面扫描图像还是原始数字文件格式不做任何假设。大型端到端深度学习模型能够取得更好的效果
-
功能列表:
- 页面扫描图像(或者直接传入文件)
- 获取图像(获取完整文件内容的图像)
- 传入模型进行分析(判断文件类型)
- 得到检测和识别结果(得到结果)
-
算法实现:使用 Faster R-CNN 作为表格检测基线模型
-
预估实现难度:
1.获取包含完整文件
2.理解模型和改进模型算法,降低错误率
数据集来源:https://github.com/doc-analysis/TableBank,TableBank 开源数据集
相关论文链接:https://arxiv.org/pdf/1903.01949.pdf