用正则表达式获取文件名和路径

最新推荐文章于 2024-10-17 11:21:59 发布

清风乐逍遥

最新推荐文章于 2024-10-17 11:21:59 发布

阅读量1.5w

点赞数 1

分类专栏： Regex 文章标签：用正则表达式获取文件名和路径 NFA原理回溯正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaobing_blog/article/details/10163021

版权

Regex 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一个文件中包括文件的路径和文件名，用正则表达式来分割路径和文件名

$WholePath = "/usr/lib/file.txt";
$leadPath = "";
$fileName = "";
if ($WholePath =~ m!^(.*)/([^/]*)$!) {

	#能够匹配 $1 和 $2都合法
	
	$leadPath = $1;
	$fileName = $2
} else {

	#无法匹配， 文件名中不含'/'
	$leadPath = ".";
	$fileName = $WholePath;
}

print "leadPath: ".$leadPath."\n";
print "fileName: ".$fileName."\n"

效果为：

leadPath: /usr/lib
fileName: file.txt

使用语言：perl

这里用了两个括号来匹配路径和文件名，perl是使用的传统的NFA（非确定有限自动机），讲一下原理;

NFA使用是深度搜索回溯的方法，所以在写正则表达式的时候，需要考虑的正则表达式的效率问题，

如前面的例子:

!^(.*)/([^/]*)$! ——这里使用叹号“!”是因为里面有斜杠"/"

在NFA中如： “ .* ” 这样的式子，有用点号"."可以匹配任意字符，所以两个字符的组合第一次直接把字符串给匹配完了

接着后面出现了一个斜杠，但此时已经匹配到末尾了，所以匹配会回溯，直到第一个斜杠，然后这里匹配成功，接着

是所有的非斜杠字符，那这当然是文件名了，然后匹配结束。

这里需要注意几点：

一，应该使用脱字符号"^"因为匹配重第一个字符开始，匹配到最后，如果变量$WholePath中没有斜杠，

匹配会一直回溯到第一个字符，此时匹配不成功，然而，因为没有脱字符，匹配会尝试重第二个字符

开始匹配，并回溯到第二个字符，然后是第三个....直到最后一个字符，这只是一个小的字符串，如果

是一个很长的文本，那么就会很费时了，所以，写正则的时候，应考虑到脱字符，这样加上后，当第一次

回溯到第一个字符时，就匹配失败了，这样时间就快了很多。

二，使用“.*”时，匹配是直接匹配的一行的结束，然后才回溯匹配的，一般来说深度搜索的效率比较低，所以

应该尽可能的减少多余的回溯

清风乐逍遥

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。