拿到的word文件内容较多,800页。格式不规范。现在尝试用word正则表达式进行整理并导入到小猫统计中。
word跟wps都可以完成以下操作。
=======================
首先保存为txt格式文件。这样操作,是为了使1、... 2、...等变为可操作的文本。这些在word中容易操作。然后用wps打开它,因为我的ms office过期了,老弹出提示。
=======================
换行符+1999年 这种格式会干扰后面操作,把这种格式前面的换行符替换掉
^p([0-9]{1,4}年)
通配符替换为
\1
不要用全部替换,要一个一个替换,防止出错。在替换界面,可以按alt+R组合键逐个替换。
=======================
,
替换为
,
=======================
1. 。。。 。
2.。。。。
或者
1.。。。 。
2.。。。。
替换为
1、。。。。
2、。。。。
操作:
(^p[0-9]{1,9}).
或者
(^p[0-9]{1,9}).
通配符替换为
\1、
=======================
删除所有空格
=======================
删除所有空行(因为有下面删除所有换行符操作,这步操作可以略)
^p^p
替换为
^p
=======================
删除所有换行符
^p
替换为
=======================
在应该换行的地方,增加换行符
([0-9]{1,4}、)
通配符替换为
^p\1
=======================
用editplus打开文本文件,根据序号浏览是否有错误: