一,hive查询表字段类型
二,pyspark中size=lambda x: len(x)
三,udf函数中最好写明type
四,pyspark dataframe.where中可以使用多个逻辑判断
五,Linux统计当前文件夹下的文件个数、目录个数:
1.文件个数:ls -l |grep "^-"|wc -l
2.当前层的文件夹个数:ls -l |grep "^d"|wc -l
3.所有层的文件个数:ls -lR|grep "^-"|wc -l
4.所有曾的文件夹个数:ls -lR|grep "^d"|wc -l
六,全局变量
声明法:优点——随时定义;缺点——当出现多个模块或函数时,若都需要依赖全局变量,不明确全局变量到底是多少
模块法:把要声明的全局变量写到一个固定的文件(例如con.py)中,别的文件调用之(import con)
七,pyspark运行原理