sed默认最长的可能性匹配，如何修改到最短匹配？

最新推荐文章于 2023-03-01 15:47:28 发布

no pay no gay

最新推荐文章于 2023-03-01 15:47:28 发布

阅读量3.6k

点赞数 3

分类专栏： mass linux shell

mass 同时被 3 个专栏收录

144 篇文章 1 订阅

订阅专栏

linux

45 篇文章 0 订阅

订阅专栏

shell

22 篇文章 0 订阅

订阅专栏

目前为止，我们只执行了简单的字符串替换。虽然这很方便，但是我们还可以匹配规则表达式。例如，以下 sed 命令将匹配从 '<' 开始、到 '>' 结束、并且在其中包含任意数量字符的短语。下例将删除该短语（用空字符串替换）：
　　$ sed -e 's/<.*>//g' myfile.html
　　这是要从文件除去 HTML 标记的第一个很好的 sed 脚本尝试，但是由于规则表达式的特有规则，它不会很好地工作。原因何在？当 sed 试图在行中匹配规则表达式时，它要在行中查找最长的匹配。在我的前一篇 sed 文章中，这不成问题，因为我们使用的是 'd' 和 'p' 命令，这些命令总要删除或打印整行。但是，在使用 's///' 命令时，确实有很大不同，因为规则表达式匹配的整个部分将被目标字符串替换，或者，在本例中，被删除。这意味着，上例将把下行：
　　<b>This</b> is what <b>I</b> meant.
　　变成：
　　meant.
　　我们要的不是这个，而是：
　　This is what I meant.

　　幸运的是，有一种简便方法来纠正该问题。我们不输入“'<' 字符后面跟有一些字符并以 '>' 字符结束”的规则表达式，而只需输入一个“'<' 字符后面跟有任意数量非 '>' 字符并以 '>' 字符结束”的规则表达式。这将与最短、而不是最长的可能性匹配。

新命令如下：

　　$ sed -e 's/<[^>]*>//g' myfile.html
　　在上例中，'[^>]' 指定“非 '>'”字符，其后的 '*' 完成该表达式以表示“零或多个非 '>' 字符”。对几个 html 文件测试该命令，将它们管道输出到 "more"，然后仔细查看其结果。

no pay no gay

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sed默认最长的可能性匹配，如何修改到最短匹配？

目前为止，我们只执行了简单的字符串替换。虽然这很方便，但是我们还可以匹配规则表达式。例如，以下 sed 命令将匹配从 '' 结束、并且在其中包含任意数量字符的短语。下例将删除该短语（用空字符串替换）：　　$ sed -e 's///g' myfile.html 　　这是要从文件除去 HTML 标记的第一个很好的 sed 脚本尝试，但是由于规则表达式的特有规则，它不会很好地工作。原因何在？当
复制链接

扫一扫