用通配符指定文件名集-glob

最新推荐文章于 2023-04-22 08:00:00 发布

SLUMBER_PARTY_

最新推荐文章于 2023-04-22 08:00:00 发布

阅读量339

点赞数

分类专栏：大数据文章标签：正则表达式 glob pyspark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nanfeizhenkuangou/article/details/121737647

版权

大数据专栏收录该内容

21 篇文章 2 订阅

订阅专栏

在计算机编程中，glob 模式用通配符指定文件名集。

我正在使用pyspark，我想用一种表达方式来读取文件名集合。假设目录/dir1/dir2/下有2020年和2021年全部的数据，每天的数据放在该天目录下，即2021年7月1日的数据放在20210701目录下，如果我想读取2021年全部的文件，只需以下代码

spark.read.load("/dir1/dir2/2021*")

但如果我只想读取2月份和3月份的所有数据呢？

开始我的思路是用正则表达式表示，但python中我对正则表达式一窍不通，然后我去学了python的正则表达式相关知识，学的时候我知道应该不是这么回事，解决不了我的问题，但正则表达式挺有趣的，所以我学完了嘿嘿嘿，然后写了篇python正则表达式入门_Jimmy and Zoey-CSDN博客。

言归正传，我还是不知道如何读取我想指定的文件名集。然后查阅资料，我发现了glob！！！这才是我想要的。wiki中对glob介绍的第一句为“在计算机编程中，glob 模式用通配符指定文件名集”。

常用语法包括：

* 匹配任意长度的字符，包括空字符
? 匹配任意一个字符
[abc]匹配任意一个方括号里的字符
[a-z]匹配任意一个小写字母

所以解答上面的问题，如果我只想读取2月份和3月份的所有数据，只需写

spark.read.load("/dir1/dir2/20210[23]*")

在类unix系统中，[…]还有两种额外语法

[!abc]匹配任意一个不在方括号中的字符
[!a-z]匹配任意一个不是小写字母的字符

这个在pyspark中亲测可行。毕竟确实是运行在linux上的。

在sql中，glob语法中的?和*都有等价的匹配，如?在sql中是_，*在sql中是%。但[…]却没有没有等价的匹配。SQL 的许多实现都扩展了 LIKE 运算符以允许更丰富的模式匹配语言，包括字符范围 ([…])、它们的否定和正则表达式的元素。

最后再抛出一个问题，如果我要读取1-11月份的所有数据呢？？？？？

参考文献

glob (programming)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用通配符指定文件名集-glob

在计算机编程中，glob 模式用通配符指定文件名集。我正在使用pyspark，我想用一种表达方式来读取文件名集合。假设目录/dir1/dir2/下有2020年和2021年全部的数据，每天的数据放在该天目录下，即2021年7月1日的数据放在20210701目录下，如果我想读取2021年全部的文件，只需以下代码spark.read.load("/dir1/dir2/2021*")但如果我只想读取2月份和3月份的所有数据呢？开始我的思路是用正则表达式表示，但python中我对正则表达式一窍不通，然后我去
复制链接

扫一扫

专栏目录

SLUMBER_PARTY_ CSDN认证博客专家 CSDN认证企业博客

码龄8年

48: 原创

40万+: 周排名

3万+: 总排名

20万+: 访问

: 等级

924: 积分

35: 粉丝

131: 获赞

30: 评论

364: 收藏

私信

关注

分类专栏

工作中的小trick 1篇
大数据 21篇
python 7篇
shell 2篇
latex 5篇
优化 3篇
传统算法 3篇
效率工具 1篇
机器学习项目 2篇

最新评论

latex-\ref引用标号不正确的问题
lkiiung: 大概是因为\label不放在\caption下面就会造成对\section贴标签\label，此时引用跳转的是该小节\section，所以编号对不上
latex-\ref引用标号不正确的问题
lkiiung: 解决了问题，但是为什么呢会这样呢？
latex-\ref引用标号不正确的问题
微雨~等待天晴: 可以手动设置，用\hyperref[label]{text} （显示文本为text，链接跳转到label处）
latex-\ref引用标号不正确的问题
access绿码通行: 啊因为我没有点run，run了之后就好啦
latex-\ref引用标号不正确的问题
access绿码通行: 即便我有caption，放在之后仍然不行

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。