用UltraEdit把98年人民日报语料转换成CRF++输入的格式（巧用正则表达式）

最新推荐文章于 2020-08-12 16:21:30 发布

Amy

最新推荐文章于 2020-08-12 16:21:30 发布

阅读量1.5k

点赞数

分类专栏：实用工具文章标签： UltraEdit 匹配汉字引用匹配到的内容正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuqian1104/article/details/8364808

版权

实用工具专栏收录该内容

2 篇文章 0 订阅

订阅专栏

98年人民日报或者微软亚洲研究院的语料格式都是这样的，例如：

我们行程接近尾声才算领教到了/O 北京/LOC 的狂风沙尘。/O

”北京“是地名，”/LOC“是实体类型，其他所有内容都属于other，即在北京前面的所有内容都标记为”/O“，北京后面的所有内容也标记为”/O“.

CRF++的格式是一行一个字，例如：

领 O

教 O

到 O

了 O

北 B-LOC

京 E-LOC

的 O

狂 O

所以，需要用正则把每个汉字后面加上一个换行，UltraEdit里面的换行符是”^p“，常用的匹配汉字的正则表达式是[\u4e00-\u9fa5]，但是直接这样写是匹配不到内容的，因为那是Unicode的编码，正确的表达式应该是[^一-龥]，别看他长得古怪，但却是管用。

到此为止，匹配汉字还是会有问题，因为会把汉字拆成半个半个字符，需要改下UltraEdit的设置：

1.另存为“UTF-16”格式

2.选择Unix风格的正则表达式。方法：高级——配置——搜索，选中右侧的“Unix风格的正则表达式”

3.高级——设置代码页/本地，“系统中已安装的代码页”，选择“936（ANSI/OEM-简体中文GBK）”；“系统已安装的地区”选择"中文（中国）中国人们共和国"。

（参见：http://hi.baidu.com/stonewang/item/2a90de33e6663720b3c0c56b）

现在，可以正确的匹配每一个汉字了。接下来就是在匹配到的汉字后面加一个换行符，这里需要用到UltraEdit的逆向引用，意思就是说把用正则匹配到的内容取出来。语法就是，把要取出来的那部分内容用小括号括起来，OK！那怎么引用呢？用反斜杠加数字！例如“\1”，这表示第一个小括号匹配到的那部分内容，“\2”表示第二层小括号匹配到的那层内容。

匹配每个汉字，并在汉字后面加换行符，具体如下：

查找：([^一-龥])

替换为：\1^p

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用UltraEdit把98年人民日报语料转换成CRF++输入的格式（巧用正则表达式）

98年人民日报或者微软亚洲研究院的语料格式都是这样的，例如：我们行程接近尾声才算领教到了/O 北京/LOC 的狂风沙尘。/O”北京“是地名，”/LOC“是实体类型，其他所有内容都属于other，即在北京前面的所有内容都标记为”/O“，北京后面的所有内容也标记为”/O“.CRF++的格式是一行一个字，例如：领 O教 O到 O了 O北 B-LOC京 E-LOC
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。