- 经过近似一个月的各种看中文英文复述研究的论文,最终选定基于单个单语语料库,从中抽取复述patterns,用于新句子的复述生成。
- 下载了搜狗实验室几百M的网页数据,发现这种单语的网页数据,从中找到复述句子对可能性非常小,而且代价很高。对于一个特定的句子,其中的复述句0.1%都不可能有。
- 基于上面的考虑,决定采取搜索引擎,搜索与句子相关的数据作为训练复述pattern。在百度中自己验证了一下,基本上可以找到复述句。如下例子:
我计划出去旅行 - 我打算出去旅游
曹雪芹写作了红楼梦 - 红楼梦作者是曹雪芹
毛泽东出生于1893.12.26 - 毛泽东生日是1893.12.26 - 1893.12.26毛泽东诞生
可以看到,搜索引擎得到的训练数据可靠性更高。 - 因此,最后决定基于搜索引擎的结果数据用为训练复述pattern,用于新句子的复述生成。
复述抽取生成doc01-思路方法确立
最新推荐文章于 2022-04-11 20:08:09 发布