大三下中期调研

调研报告

一、项目概览

  1. 人工智能微体验平台(gao)[聊天对话机器人+TOONME]
  2. 购物商城网站(gao)
  3. 基于知识图谱的医疗问答系统(gao)
  4. 人体动作预测——操控机器人(zhang)
  5. 基于图像识别的Word表格检测和识别(li)

二、具体项目介绍

  1. 优化重构上学期照片打假系统的基础上,拓展功能点如下:
  • 虚拟机器人聊天功能(数据集初步来源为手工编写样例),类似于智能客服。模型使用[XLNet ](https://blog.csdn.net/weixin_37947156/article/details/93035607)

  • 图片卡通化,(参考toon me。缺点,模型效果远远不如adobe的PS),数据集合使用中科院CAS-PEAL-R1.

    创新点:较之于百度,腾讯,讯飞AI体验中心的大而全。我们针对性的将AI领域的图像取证与图像卡通化进行融合,并辅之以智能客服的帮助。使AI一键即达。

  1. 购物商城,(参考小米购物网站,采用Tornado框架,利用本学期的Recommendation system知识

  2. 基于知识图谱的医疗问答系统,数据集来源于网络样例,展示页面采用flask框架,数据库软件采用neo4j

  3. 人体动作预测——操控机器人

  • 创新点:现有的类人型机器人的操控,有很大延迟。不能满足实际需要。例如在救灾,侦查的方面。对及时性要求较高。
    此项目预想通过摄像头捕获操作者人体,并对其进行0.5s内的动作预测。并将预测后的结果传输到机器人。已追求实时性。

  • 功能列表:

    • 人体检测(捕获操作者的人体)
    • 姿态检测(判断人体所处状态并标记)
    • 动作预测(依据检测好的状态,预测人体下一步动向)
    • 将预测结果传输给机器人(实现实时控制)
  • 算法实现:基于视觉(vision-based)的单目人体姿态估计(HPE)

  • 预估实现难度:

    • 动作预测数据的获取
    • 计算机与机器人的交互
    • 机器人的获取
      数据集来源
      (东京工业大学开发可以预测 0.5 秒后的动作的「FuturePose」AI 系统)
  • 包含内容

    • 题目
      遗憾:未从生活实际着手(生活中哪里不完善),发散思维,不是聚焦到一个非常具体的点。

    • 创新点:在现有项目的基础上,进行尽可能有意义的融合。

    • 预估实现难度、2>5>1,3>4>

  1. 基于图像识别的Word表格检测和识别
  • 创新点:基于图像的表格分析的优势体现在其对文件类型的稳健性,并对文件是页面扫描图像还是原始数字文件格式不做任何假设。大型端到端深度学习模型能够取得更好的效果

  • 功能列表:

    • 页面扫描图像(或者直接传入文件)
    • 获取图像(获取完整文件内容的图像)
    • 传入模型进行分析(判断文件类型)
    • 得到检测和识别结果(得到结果)
  • 算法实现:使用 Faster R-CNN 作为表格检测基线模型

  • 预估实现难度:
    1.获取包含完整文件
    2.理解模型和改进模型算法,降低错误率

数据集来源:https://github.com/doc-analysis/TableBank,TableBank 开源数据集

相关论文链接:https://arxiv.org/pdf/1903.01949.pdf

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值