复述抽取生成doc01-思路方法确立

  1. 经过近似一个月的各种看中文英文复述研究的论文,最终选定基于单个单语语料库,从中抽取复述patterns,用于新句子的复述生成。
  2. 下载了搜狗实验室几百M的网页数据,发现这种单语的网页数据,从中找到复述句子对可能性非常小,而且代价很高。对于一个特定的句子,其中的复述句0.1%都不可能有。
  3. 基于上面的考虑,决定采取搜索引擎,搜索与句子相关的数据作为训练复述pattern。在百度中自己验证了一下,基本上可以找到复述句。如下例子:
    我计划出去旅行 - 我打算出去旅游
    曹雪芹写作了红楼梦 - 红楼梦作者是曹雪芹
    毛泽东出生于1893.12.26 - 毛泽东生日是1893.12.26 - 1893.12.26毛泽东诞生
    可以看到,搜索引擎得到的训练数据可靠性更高。
  4. 因此,最后决定基于搜索引擎的结果数据用为训练复述pattern,用于新句子的复述生成。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值