python数据框新建一个列并赋值,通过解析列值为数据框创建新列,并使用来自另一列python的值填充新列...

根据Disease列中的列表创建新列Asthma、ARD等,并根据Status列的值填充,同时处理'不包括'的值。使用pandas操作进行高效数据处理,避免在大数据框上循环。
摘要由CSDN通过智能技术生成

我需要基于特定列中的列表将新列添加到数据框。新列需要是从该列中所有列表派生的集合。

然后,我还有另一列带有与第一列相对应的列表的列表,但数据略有不同。如果这些值不在“不包括”列表中,则需要这些值来填充新列

这是一个例子:

Disease Status

0 Asthma|ARD Ph II|Ph I

1 Arthritis|Inflammation|Asthma Ph III|Approved|No development reported

这应该变成:

Disease Status Asthma ARD Arthritis Inflammation

0 Asthma|ARD Ph II|Ph I Ph II Ph I

1 Arthritis|Inflammation|Asthma Ph III|Approved|No development Ph III Approved

这里的“不包括”列表只是['没有开发'],但是我想在这里包括更多的术语。

我正在使用的数据框有很多列,我对开发一个函数很感兴趣,在该函数中我可以简单地传递df,列名和“请勿包含”列表,这些列表将以高效的方式执行此任务(理想情况下无需任何操作)或很少的循环)。

我当前的方法是从“疾病”列中创建一个集合,通过pd.concat将其添加到数据框中,然后遍历每一行,在两列中拆分值,然后遍历“疾病”列表以放置正确的疾病列中的状态。

问题是我的数据帧大约有12,000行,这非常耗时。

解决方案

似乎您在每个单元格中都有多个值(来自先前和当前的问题)。首先整理数据,然后继续进行分析,要容易得多。尝试将每个值放在其自己的单元格的每

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值