dishui89-CSDN博客

原创 python 时间格式处理

【代码】python 时间格式处理。

2024-05-27 11:34:26 294

原创在Pyspark dataframe中按groupby后的计数、求和进行过滤

是函数的别名，您可以使用任何需要的标识符，但它通常写为。按这个dataframe的名称列分组。有一个像这样的pyspark。

2023-04-24 16:09:05 2128

原创 Python判断DataFrame或者其中某一项的值是否为空，提取某列唯一值

data=data[data['日期'].apply(lambda x:True if x in ['2021-01','2021-02'] else False )]原文链接：https://blog.csdn.net/May_Beee/article/details/120845804。3.剔除掉Dataframe类型数据某列中为空的数据，为空的列剔除掉其整行数据。#只保留日期列中为 2021-01，2021-02 的行数据。转化为：判断某项值不为空的方法，不为空则继续执行的if语句。

2023-04-24 07:54:11 3158

原创 pyspark:dataframe使用pandas_udf做groupby

数据介绍：供应商发布课程表，供应商发布了很多课程，发布的每个课程都有发布时间，在数据库中是timestamp类型，数据表中表项为org_id, course_id, publish_date,现要获取供应商发布课程的最新时间作为该供应商的最新活跃时间。数据介绍：一张企业表，企业下有很多职位，不同的企业可能有相同的职位，基于每个企业下的每个职位，统计了该职位某个热搜词被检索的次数，现需要根据职位类别统计各个热搜词被检索的总次数。思路：单个主播的所有的直播课的分数全部加起来，除以所有直播课的共同的评分人数。

2023-04-23 23:24:06 789

原创 Python Pandas dataframe.first_valid_index()

Pandas dataframe.first_valid_index()函数返回数据框架中第一个非NA/null值的索引。在pandas Dataframe的情况下，将返回具有单个非NA/null值的索引。使用first_valid_index()函数来查找一个系列中的第一个非NA/null索引。使用first_valid_index()函数来查找数据帧中第一个非NA/null的索引。使用first_valid_index()函数查找数据帧中第一个非NA/null索引。注意，在第一行的第二列有非纳值。

2023-04-23 22:16:03 718

原创 PySpark-DataFrame条件筛选

注意filter里面本质上是筛选bool表达式，多个条件时不能用and，如果用了会报错如” test_exp_data.filter((test_exp_data['age']>24) and (test_exp_data['score']>90)).show()“test_exp_data.filter((test_exp_data['age']>24) & (test_exp_data['score']>90)).show() # 多个条件中的每个条件注意用()括起来，链接注意用& 而不是and。

2023-04-23 21:02:28 765

dishui89的博客

原创 python 时间格式处理

原创在Pyspark dataframe中按groupby后的计数、求和进行过滤

原创 Python判断DataFrame或者其中某一项的值是否为空，提取某列唯一值

原创 pyspark:dataframe使用pandas_udf做groupby

原创 Python Pandas dataframe.first_valid_index()

原创 PySpark-DataFrame条件筛选

原创获取 PySpark 数据帧的行数和列数

转载机器学习数据划分笔记（train_test_split）

转载机器学习可视化调参 sklearn cv_results_使用与解析网格搜索 python

转载 Python机器学习笔记（交叉验证与网格搜索GridSearchCV）

My_Polar_1

空空如也