阅读笔记

What's Cookin'? Interpreting Cooking Videos using Text, Speech and Vision

 程序知识procedural knowledge 从多个模态提取

alignment

(instructional step - speech signal)HMM


数据收集与预处理

youtube上搜索,并且增加扩展连接的内容

句子分类 naive bayes  (recipe step, recipe ingredient, background)

parse:POS tagging,entity chunking, constituency parsing 分类树节点必为v

 (欧式距离->词之间距离)stem 若找不到明显entity 启发式找前句


speech transcript

ASR system



factored HMM(step of recipe -- ASR words), keyword confidence

visual detecors, CNN classify, 找到direct object 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值