perl中汉语匹配的问题

如何用句号分割中文句子
发信站:BBS水木清华站(MonMar719:40:392005),转信


example:
还有一件事。5点半你去会见斯图尔特先生。
提取出
subsentence1:还有一件事。
subsentence2:5点半你去会见斯图尔特先生。
句中可能有多个句号那么就切分为多个。

我的想法是:
1.去掉末尾标点
$t_c_str=~s/[))\;,.?!\"\',。?!“”‘’…\n]+$//;#去掉末尾标点
2.在判断有无句号
if($t_c_str=~/。/)
3.切分
@subsen_c=split(/。/,$t_c_str);

有bug大家帮忙支个招。

ans

你用支持unicode的编辑器把源文件全部转成utf8编码,然后在最开始加useutf8,中文字符就和英文字符一样用了。
不想这样转就得用Encode模块:

useEncode;
$a=decode("gbk","还有一件事。5点半你去会见斯图尔特先生。");
$dot=decode("gbk","。");
@f=split(/(?<=$dot)\b/,$a);
foreach(@f){
printencode("gbk",$_),"\n";
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值