巧用NotePad++ 做文本处理

利用Notepad++处理文本,其中涉及文本的合并,去除空行,插件安装,查找与替换等。

首先,批量处理文本,也就是把所有的语料放到一个txt文档中。很好办,cmd命令下输入如下操作符就可以了。(表示把E盘目录下Camera文件下的所有东西都写入到Camera.txt文档中,Camera.txt自动创建的。

 

如果操作成功,则显示如下:

 

 

然后到E盘Camera.txt中查看就行了。(Notepad++ 打开)

然后就是文本的处理的,发现文本中含有如图红线所示的东西,那么就去掉吧!

选择“搜索”---“替换”,先从简单的开始。

 

下面替换部分敲“空格”就OK了。这样就依次把<DOC> </DOC><TEXT>等去掉了。

 

剩下的就是比较复杂点的<DOCID>*****</DOCID>,因为****部分是变化了,所以使用正则表达式处理。如图:

 

 

这样就把所有不相干的东西处理掉了!如图:干净了很多了。

 

最后就是处理文档,按照“。”、”!“,”?“等标示句子结束的符号进行分句。好办,不用写程序,还是用NotePad++ 啦!

点击“搜索”———“替换”(跟刚才一样)

 

查找目标部分写入“。”“?”等等,一次处理一个吧!替换部分输入“\r”表示换行。

切记:下面一定要勾选“扩展”,然后“全部替换”。就OK了!其他符号也是这么处理滴。看看效果:

 

已经分好行了,但是还有很多空白行,十分不美观。下面就是处理空白行了。这个得安装一个叫textfx的插件。

把压缩包中的文件放到Notepad++安装目录下的plugins目录下,然后重启NotePad++,就出现了。

 

 

首先,选择如图(表示去除多余的空格):

然后,CTRL+A,全选,

 

选择,TextFX----TextFX Edit---Delete Blank Lines 就行了。

最后效果如下:

 

 

转载于:https://www.cnblogs.com/shanlanjie/archive/2012/03/26/2418274.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值