我需要基于特定列中的列表将新列添加到数据框。新列需要是从该列中所有列表派生的集合。
然后,我还有另一列带有与第一列相对应的列表的列表,但数据略有不同。如果这些值不在“不包括”列表中,则需要这些值来填充新列
这是一个例子:
Disease Status
0 Asthma|ARD Ph II|Ph I
1 Arthritis|Inflammation|Asthma Ph III|Approved|No development reported
这应该变成:
Disease Status Asthma ARD Arthritis Inflammation
0 Asthma|ARD Ph II|Ph I Ph II Ph I
1 Arthritis|Inflammation|Asthma Ph III|Approved|No development Ph III Approved
这里的“不包括”列表只是['没有开发'],但是我想在这里包括更多的术语。
我正在使用的数据框有很多列,我对开发一个函数很感兴趣,在该函数中我可以简单地传递df,列名和“请勿包含”列表,这些列表将以高效的方式执行此任务(理想情况下无需任何操作)或很少的循环)。
我当前的方法是从“疾病”列中创建一个集合,通过pd.concat将其添加到数据框中,然后遍历每一行,在两列中拆分值,然后遍历“疾病”列表以放置正确的疾病列中的状态。
问题是我的数据帧大约有12,000行,这非常耗时。
解决方案
似乎您在每个单元格中都有多个值(来自先前和当前的问题)。首先整理数据,然后继续进行分析,要容易得多。尝试将每个值放在其自己的单元格的每