Linux下grep匹配中文字符

最新推荐文章于 2023-09-05 08:00:37 发布

pl在之心

最新推荐文章于 2023-09-05 08:00:37 发布

阅读量3.5w

点赞数 9

分类专栏：操作系统 Linux常用命令文章标签： linux grep regex 中文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010627840/article/details/41863395

版权

Linux常用命令同时被 2 个专栏收录

14 篇文章 1 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

github地址： https://github.com/longyu109

1.背景

最近在解析.vcf文件，想提取其中的姓名和邮箱地址，发现linux下匹配中文与java下

匹配中文有所不一样，java下匹配格式为[\u4e00-\u9fa5]，注意java下有的特殊字符需要

转义，也就是再加一个\。

但是，当我将此格式用于grep命令中时，发现失效了，出来的是全部的字符，感觉

并没有过滤，此处原因，我也不太清楚。

上网查询时，看到一个网友的回答，觉得挺对的，尽管他没有给出答案，我先使用

sed命令过滤掉所以的字母，数字，特殊字符；剩下的就是中文了。当然此处，不能出现

多种语言混合的情况。

命令如下：#cat 1.txt | sed 's/[a-zA-Z0-9[:punct:]]//g' | grep -v '^$'

后面的grep命令是去掉空白行。

2.正则表达式如何生效

grep正则匹配中文可以考虑：

grep '[^\u4e00-\u9fa5]' test.log （如果不生效，见下面的命令）

注： grep '[\u4e00-\u9fa5]' test.log 命令经常不生效

此外下面命令可生效：

grep -P '[\p{Han}]' test.log

关注

9
点赞
踩
16

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。