目录
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。
问答系统基础一
IBM这个人,蓝色巨人,硅谷海盗。
Watson 对话系统,doing。
老师自我吐槽,扯淡时间多于工作的时间。
问答系统基本概念。
问答的简史:问答的所有问题?
1机器翻译2语音识别3数据库
自然语言控制机器人动作,积木世界。
LUNAR系统。
扩充知识转移网络进行句法分析。
LIFER系统
CHAT-80系统
START系统
MURAX系统
AskFeeres系统
人肉高科技,人工恢复问题
十万篇相关文档分析,相关问题答案未实现。
问答系统基础二
在各个步骤,建立统计分类模型。
问答式信息检索。
会议检索,评测技术平台,check。
1问句处理?
2海量答案对应?
3事实性陈述即可解决
问答系统术语
问题类型 question type
答案类型 answer type
问句焦点 question focus
问句主题 question topic
候选段落 candidate passage
候选答案 candidate answer
答案所属类别,最型问题,观点问题,因果类问题,事实类问题
问句对应的目标类型。
问答系统基础三
2008年,认识到自己目前做的和想做的距离有多大。
焦点:实体的属性。
主题:讨论的实体。
候选段落:由搜索引擎响应用户问句而检索得到的文本片段。
候选答案:可能的答案
{1找到候选段落2与问句匹配并检查段落的语义3抽取答案}
{1相似段落2语义匹配法3语法匹配法}
智能化信息检索结构图
语法,语义,专业知识库
元搜索,满足确切的未知的点。
问答系统基础四
网页重复太多(一些搜索引擎死了,百度活下来了)
工程问题细节超多,这才是你的生命线。
数据库索引技术,PAT树,B+树,哈希树,My SQL
智能化信息,检索模型。
{布尔,向量空间,概率模型}
基于结构映射理论的新型信息,检索模型,系统相似模型。
向量空间模型的本源理论模型,通用性理论模型。
自然语言处理技术:各个技术的综合。
完善自己的理论,做应用课题。
原创理论时代。复杂性,精度是冲突的。
问答式基础理论。
问答系统基础五
项目研究进展报告提纲:
1开放域问答系统概要设计
2工作进展与展望
3主要阶段性成果
4总结
用户层:用户交互,语言分析识别,个性化信息。
最终肯定要个性化发展。
机器学习,ranking结果
NLP+NLG。
三层体系,四层系统。
语义层,用户层,强化学习技术。