python正则表达式见python正则表达式入门
pyspark.sql.DataFrame.colRegex方法可以根据正则表达式选择列。
例1:选择所有BASE_开头的列
df.select(df.colRegex("`(BASE_)+.+`")).show()
()表示组,’+‘表示前面的表达式出现一次或以上,’.‘代表任意一个字符。
(BASE_)代表组,第一个’+‘代表前面的BASE_出现一次或以上,’.‘代表任意单个字符,第二个’+'代表前面的任意字符出现一次或以上。整行代码的意思为列名必须为BASE_开头,之后可为任意字符。