我是一个正则表达式的菜鸟,试图将段落分成句子.在我的语言中,我们在句子中间使用了相当多的缩写(例如:bl.a.),所以我得出结论,我需要做的是寻找标点,然后是单个标点符号空格,然后是一个以大写字母开头的单词,如:
[sentence1]...anymore. However...[sentence2]
所以一段如下:
Der er en lang og bevæget forhistorie bag lov om varsling m.v. i forbindelse med afskedigelser af større omfang. Det er ikke en bureaukratisk lovtekst blandt så mange andre.
应以此输出结束:
[0] => Der er en lang og bevæget forhistorie bag lov om varsling m.v. i forbindelse med afskedigelser af større omfang.
[1] => Det er ikke en bureaukratisk lovtekst blandt så mange andre.
而不是这个:
[0] => Der er en lang og bevæget forhistorie bag lov om varsling m.v.
[1] => i forbindelse med afskedigelser af større omfang.
[2] => Det er ikke en bureaukratisk lovtekst blandt så mange andre.
我找到了一个解决方案,使用正面的lookbehind功能完成了第一部分:
$regexp = (?<=[.!?] | [.!?][\'"]);
然后
$sentences = preg_split($regexp, $paragraph, -1, PREG_SPLIT_NO_EMPTY);
这是一个很好的起点,但由于许多缩写,分裂的方式太多了.
我试过这样做:
(?<=[.!?]\s[A-Z] | [.!?][\'"])
以每一次出现为目标
. or ! or ?
其次是空格和大写字母,但这不起作用.
有谁知道,如果有办法完成我想做的事情?