复述 paraphrases
仰望-NLQ
simple
展开
-
复述抽取生成doc01-思路方法确立
经过近似一个月的各种看中文英文复述研究的论文,最终选定基于单个单语语料库,从中抽取复述patterns,用于新句子的复述生成。下载了搜狗实验室几百M的网页数据,发现这种单语的网页数据,从中找到复述句子对可能性非常小,而且代价很高。对于一个特定的句子,其中的复述句0.1%都不可能有。基于上面的考虑,决定采取搜索引擎,搜索与句子相关的数据作为训练复述pattern。在百度中自己验证了一下,基本上可以找原创 2013-10-21 18:38:52 · 1357 阅读 · 0 评论 -
复述抽取生成doc03-实现01
编程实现01 定义一个句子类NewSentence,包含基本的句子,分词后的结果,以及句法分析树结果,以及句子中的锚点对象(命名实体)分词采用IKAnalyzer句法分析以及依存分析采用stanford parser(分析一个句子比较慢 加载汉语模型要1秒多)结果如下:* 句子“我计划出去旅行。”: Loading parser from serialized file models/c原创 2013-10-21 18:42:15 · 947 阅读 · 0 评论 -
复述抽取生成doc02-复述抽取生成流程图
基于前面doc01确定的思路,本文档给出复述抽取生成的流程图,附件PDF以及图片所示。原创 2013-10-21 18:41:20 · 1085 阅读 · 0 评论