产品:
1. 聊天:小黄鸡
2. 服务:
Google now (deep learning)
Apple SIRI
IBM watson (deepQA)
MS 小冰+小娜 (deep learning)
光年无限 图灵机器人 (deepQA) +虫洞语音助手
讯飞语点

需求:
1. 聊天:始终保持会话持续。每周解锁一项技能?
2. 服务:解决用户问题。e.g.京东购物

目标:不盲目追求庞大的用户数,而是追求用户的高度粘性。

流程:
1. Q
(1) Preprocessing: 分词、NER, RE, entity linking
(2) 问题/答案分类:5W1H; informational (事实、列表、定义), navigational, transactional
(3) 查询扩展、意图, e.g. 埃菲尔铁塔有多高?m, km, inch
2. D (knowledge-graph http://www.ccf.org.cn/sites/adl/ADL55.rar adl55150107)
3. Matching (从聊天语料中获取上下文语义相关的模板, slots)
4. 生成答案(及验证)
5. 会话控制

数据:
1. MS
bing: 300亿网页,60亿中文网页
6年积累,全部公开的中文聊天记录,从中精炼出1500万条记录(>1000条模板)+情绪语料
0.7%的速度扩大规模
E/2014: 600万注册用户,6亿次对话,人均1200条/月
举个栗子,问小冰
(1) 宝宝过敏怎么办?小冰答:在可控条件下多接触直至脱敏,或者不接触(全网只有百度知道有这条回答;反而如果用必应搜,排名靠后)
(2) LG和三星哪家冰箱好?小冰问:什么型号?并给出一条网友评论。
2. 海天瑞声
聊天室bbs: 4,000万字+4,300万字

团队:
小冰:100人(前端50人(4个编辑模板)),1200多人(STC)
IBM: >20研究员

问题:
1. 意图分析:回家
2. 多轮交互、会话控制:
向前:苹果的CEO? google的呢?MS的呢?
向后:多想几步,例如,天气、带伞、给家人带伞
读心机器人:取熵最大/信息增益最大

错误分析:
1. 终点
2. 高频 vs. 长尾