复述抽取生成doc01-思路方法确立

最新推荐文章于 2022-04-11 20:08:09 发布

仰望-NLQ

最新推荐文章于 2022-04-11 20:08:09 发布

阅读量1.3k

点赞数

分类专栏：复述 paraphrases 自然语言处理NLP

本文链接：https://blog.csdn.net/simpleniulq/article/details/12915945

版权

8 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

经过近似一个月的各种看中文英文复述研究的论文，最终选定基于单个单语语料库，从中抽取复述patterns，用于新句子的复述生成。
下载了搜狗实验室几百M的网页数据，发现这种单语的网页数据，从中找到复述句子对可能性非常小，而且代价很高。对于一个特定的句子，其中的复述句0.1%都不可能有。
基于上面的考虑，决定采取搜索引擎，搜索与句子相关的数据作为训练复述pattern。在百度中自己验证了一下，基本上可以找到复述句。如下例子：
我计划出去旅行 - 我打算出去旅游
曹雪芹写作了红楼梦 - 红楼梦作者是曹雪芹
毛泽东出生于1893.12.26 - 毛泽东生日是1893.12.26 - 1893.12.26毛泽东诞生
可以看到，搜索引擎得到的训练数据可靠性更高。
因此，最后决定基于搜索引擎的结果数据用为训练复述pattern，用于新句子的复述生成。

关注

专栏目录