Pandas相关数据处理

最新推荐文章于 2024-07-08 00:01:13 发布

Scarlett_ma

最新推荐文章于 2024-07-08 00:01:13 发布

阅读量597

点赞数

分类专栏： python 文章标签： python 人工智能

本文链接：https://blog.csdn.net/Scarlett_ma/article/details/121374054

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Dataframe的使用

源数据
最终输出
对每个用户关联每个素材，得到每个用户与各个素材的dataframe，便于后续预估每个用户对每个素材的ctr

源数据

读取数据

df = pd.read_csv('C:/Users/items/WorkRelated/items.csv')

取某列等于某个值的数据

df_app = df[df['channel']=='app']  #取渠道为app的数据

-取某行某列的某个值

catevalue = df_app.loc[idx, 'cate']  # 对cate列，逐行取值

取某列为NULL的数据
注意这里，在python中是没有NULL的，python读取csv中的null为NaN

# pd.isna()返回的是bool值，为空的返回True，否则为False, df_app[bool值]，返回bool值为True的数据，即返回end_time列为空的数据
df_app = df_app[pd.isna(df_app['end_time'])]

取某列不为null的数据

df_app[pd.isna(df_app['end_time'])==False]

取某几列数据

# 取出df_app中只包含这三列的数据
df_app = df_app[['cate', 'item_id', 'end_time']]

最终输出

最终输出

对每个用户关联每个素材，得到每个用户与各个素材的dataframe，便于后续预估每个用户对每个素材的ctr

用户表
app素材表
读取数据

df_users = pd.read_csv(FLAGS.user_path,
                           names=user_COLUMNS,
                           skipinitialspace=True,
                           encoding="utf-8",
                           engine="python")
df_app = pd.read_csv()

将每个用户复制app素材份

 # 将每个用户复制app素材数份
userapp = pd.DataFrame(np.repeat(df_users.values, len(df_app), axis=0), columns=user_COLUMNS)

将app素材复制用户份

# (np.tile(A, (n,1)))表示对于矩阵A，朝着样本的方向复制n份，特征的方向复制1份
repeat_app_items = np.tile(df_app, (len(df_users), 1))
app_items = pd.DataFrame(repeat_app_items, columns=item_COLUMNS)

关联这两个dataframe

# 此时这两个dataframe行数相同，纵向链接
user_app = pd.concat([userapp, app_items], axis=1)   # app侧的预测数据

Scarlett_ma

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas相关数据处理

Dataframe的使用源数据最终输出源数据读取数据df = pd.read_csv('C:/Users/items/WorkRelated/items.csv')取某列等于某个值的数据df_app = df[df['channel']=='app'] #取渠道为app的数据取某列为NULL的数据注意这里，在python中是没有NULL的，python读取csv中的null为NaN# pd.isna()返回的是bool值，为空的返回True，否则为False, df_ap
复制链接

扫一扫