目录
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。
课堂总结(一)
问答系统总结,数据层,搜索引擎控制,信息采集,文本分类,信息索引。
课堂总结(二)
文本分类系统新的结构。国家863项目。
处理精度,鲁棒性达到相应的目标。
新一代学习检索机制,持续学习的能力。
统计词法分析,外界反馈来学习,机制研究。
实体信息抽取,电子病历信息抽取。电子健康。基于最大熵的识别系统,CRF模型。
transfer learning模型。句法分析,补偿学习,增量学习,主动式学习,在线学习,强化学习。
文本聚类,自组织映射文本系统。
做一个有人用的东西。
课堂总结(三)
把自己做的东西的应用率作为自己的追求目标,忠实的fans。
领域知识的自动构建,单词变体,缩略语的研究,难度极大,非常有用的应用。
mindmanager 推荐。
思维导图构成,结构清晰,思路连贯。
开始回顾:
语言-多类文档。字处理-编码,输入输出。
分词的难点:every great idea is simple。
频度统计,很多工作。科学的定量方法。
语料库的多级加工,n-grams语言模型。
课堂总结(四)
n-gram噪声信道模型,平滑。
平滑的原则。
隐码句法浅层句法分析问题。
总结的话:规则+统计结合的思想。
一般性问题和特殊性问题。语义不能这么弄。
分个类:
1抢占高地的研究,先做式。
2解决问题的研究,Hownet。
3填补空白的研究,成熟方法+新事物处理,语义信息在神经中的机制。