pyspark
dj_wings空杯
这个作者很懒,什么都没留下…
展开
-
hive 时间运算
date_add(from_unixtime(unix_timestamp(batch_date,'yyyymmdd'),"yyyy-mm-dd"),1)date_add格式要求为2020-10-01才能加减原创 2020-11-11 10:37:50 · 471 阅读 · 0 评论 -
pyspark 模型训练 列名问题
模型训练时,如果变量是从hive中直接拿取,则通用但是当变量是现场加工时,变量的大小写可能和它默认的列名大小写不同,可能会报错原创 2020-09-13 18:14:27 · 225 阅读 · 0 评论 -
pySpark dataframe列中获取最大值的最佳方法
转载https://www.itranslater.com/qa/details/2582633432329225216from pyspark.sql.functions import mean, min, maxresult = df.select([mean("A"), min("A"), max("A")])result.show()+------+------+------+|avg(A)|min(A)|max(A)|+------+------+------+| 2.转载 2020-07-30 11:05:08 · 7864 阅读 · 0 评论 -
pyspark 众数填充空值
转自:https://medium.com/@aieeshashafique/exploratory-data-analysis-using-pyspark-dataframe-in-python-bd55c02a2852def mode_of_pyspark_columns(df, cat_col_list, verbose=False): col_with_mode=[] for col in cat_col_list: #Filter null ...原创 2020-07-29 17:35:10 · 1383 阅读 · 0 评论 -
pyspark 获取表的列名和列的结构组合的列表
mian_table.types第三个的列名:mian_table.types[2][0]第三个的列的类型:mian_table.types[2][1]原创 2020-07-24 09:48:57 · 1445 阅读 · 0 评论 -
使用Pyspark计算Spark数据帧每列中非NaN条目的数量
原作者:跃然一笑让我们从虚拟数据开始:from pyspark.sql import Rowrow = Row("v", "x", "y", "z")df = sc.parallelize([ row(0.0, 1, 2, 3.0), row(None, 3, 4, 5.0), row(None, None, 6, 7.0), row(float("Nan"), 8, 9, float("NaN"))]).toDF()## +----+--...原创 2020-07-20 15:31:21 · 650 阅读 · 0 评论 -
pyspark fillna无反应问题
pyspark fillna()中填充的类型要和该列的类型要相同,否则无反应也不会报错。如 fillna(0,subset=["col1"]) 可以 但是 fillna("0"...)不行原创 2020-06-23 15:50:00 · 1588 阅读 · 0 评论 -
Spark实现行列转换pivot和unpivot
转自https://www.cnblogs.com/Allen-rg/p/10084933.html转自https://blog.csdn.net/lquarius/article/details/106685672转载 2020-06-19 11:20:21 · 160 阅读 · 0 评论