stanford parser使用参数

上次使用stanford parser解析conll shared task中英文句子的时候,就遇到了句子被其中的分隔符“.”分成两句的情况,上次没有解决。现在回头做实验,才查到可以指定参数,告诉parser按照每一行来切分句子。

官网的FAQ上原句是If you want to give the parser one sentence per line, include the option -sentences newline in your invocation of LexicalizedParser。

    修改lexparser.sh中,添加-sentence newline参数,便可以避免一行的句子被拆分,如 What is the full form of .com ?

    如果要保留句子原有的分词,添加-tokenized参数,这样.com就不会被分为两个词了

在使用stanforde pos tagger的时候,也有这样的情况,参数是-sentenceDelimiter newline 。

    小mark一下!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值