用UltraEdit把98年人民日报语料转换成CRF++输入的格式(巧用正则表达式)

98年人民日报或者微软亚洲研究院的语料格式都是这样的,例如:

我们行程接近尾声才算领教到了/O 北京/LOC 的狂风沙尘。/O

”北京“是地名,”/LOC“是实体类型,其他所有内容都属于other,即在北京前面的所有内容都标记为”/O“,北京后面的所有内容也标记为”/O“.

CRF++的格式是一行一个字,例如:

领 O

教 O

到 O

了 O

北 B-LOC

京  E-LOC

的 O

狂 O

所以,需要用正则把每个汉字后面加上一个换行,UltraEdit里面的换行符是”^p“,常用的匹配汉字的正则表达式是[\u4e00-\u9fa5],但是直接这样写是匹配不到内容的,因为那是Unicode的编码,正确的表达式应该是[^一-龥],别看他长得古怪,但却是管用。

到此为止,匹配汉字还是会有问题,因为会把汉字拆成半个半个字符,需要改下UltraEdit的设置:

1.另存为“UTF-16”格式

2.选择Unix风格的正则表达式。方法:高级——配置——搜索,选中右侧的“Unix风格的正则表达式”

3.高级——设置代码页/本地,“系统中已安装的代码页”,选择“936(ANSI/OEM-简体中文GBK)”;“系统已安装的地区”选择"中文(中国)中国人们共和国"。

(参见:http://hi.baidu.com/stonewang/item/2a90de33e6663720b3c0c56b

现在,可以正确的匹配每一个汉字了。接下来就是在匹配到的汉字后面加一个换行符,这里需要用到UltraEdit的逆向引用,意思就是说把用正则匹配到的内容取出来。语法就是,把要取出来的那部分内容用小括号括起来,OK!那怎么引用呢?用反斜杠加数字!例如“\1”,这表示第一个小括号匹配到的那部分内容,“\2”表示第二层小括号匹配到的那层内容。

匹配每个汉字,并在汉字后面加换行符,具体如下:

查找:([^一-龥])

替换为:\1^p

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值