对文件中某一行根据包含的数量进行筛选

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


一、问题阐述

在这里插入图片描述
想对drug这一列进行判断,如果哪一行drug的数量是1,则将此行删除

二、解决方法

1.将字符串转成列表,进行计数

代码如下(示例):

import pandas as pd

# 读取CSV文件到DataFrame
df = pd.read_csv('your_file.csv')

# 定义一个函数,用于处理 drug 列中的字符串,strip()是将字符串两端的空格去除
def process_drug_column(drug_str):
    # 去除多余的字符并将字符串转换为列表
    drugs = drug_str.strip('[]').replace("'", "").split(',')
    return [drug.strip() for drug in drugs]

# 应用处理函数到 drug 列
df['drug'] = df['drug'].apply(process_drug_column)

# 过滤出 drug 列中包含多个药物的行
df_filtered = df[df['drug'].apply(len) > 1]

# 保存过滤后的DataFrame到新的CSV文件
df_filtered.to_csv('filtered_file.csv', index=False)

在这里插入图片描述

2.针对字符串,直接计数逗号来计算药物数量

代码如下(示例):

import pandas as pd

# 读取CSV文件到DataFrame
df = pd.read_csv('/home/yin/DREAMwalk-main/DREAMwalk-main/demo/LiuRui/recall_result/true_disease.csv')

# 过滤出 drug 列中包含多个药物的行(逗号数量大于等于1的行)
df_filtered = df[df['drug'].str.count(',') >= 1]

# 保存过滤后的DataFrame到新的CSV文件
df_filtered

在这里插入图片描述


总结

针对上面两种方法,第二种要求数据格式是规范的且没有额外的复杂情况,所以第一种较为灵活,且生成的数据格式规范。

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值