近期一小项目需要对PDF进行解析,方案就是将其转换成txt,然后....正则——解析字符串的首先。
对于正则业余爱好的ME,从每页具有0.5k的txt,解析出大约90个字段(样本如,用户:jinglecat),
显然是一项挑战,而且我深知,绝对是一项苦力活。
同事开源鸡说,小样新来的就是新来,Expresso 你都不知道,亏你糟蹋了公司那么多coffe?
Expresso 最初是正则表达式的测试工具,经过多个版本的演化,最版版本3.0提供的功能包括:
- 免费
- 通过选择预编写代码片段来创建正则表达式
- 可以通过手动输入或者从文件中导入两种方式来测试文本
- 在树形结构中显示匹配,显示捕获组以及组内所有捕获
- 加亮源文件中的匹配文本
- 自动查找正则表达式的语法错误
- 生成VB,C#或C++代码
- 提供常用正则表达式库
- 优化正则表达式
- ......
当有了足够的RE理论知识之后,Expresso将是一提高编写RE的效率大利器,项目还在进行当中,时间不允许对Expresso做过多的深入,毕竟Expresso仅仅是一工具。
下载地址:
http://ultrapico.com/Expresso.htm
正则知识库:
http://msdn.microsoft.com/zh-cn/library/az24scfc.aspx(中文)
http://msdn.microsoft.com/en-us/library/az24scfc.aspx(英文)
http://regexlib.com/(英文)
http://www.regular-expressions.info/(英文)