dataframe寻找两个dataframe某一列相同的差集

最新推荐文章于 2022-06-23 15:09:28 发布

此去经年天问

最新推荐文章于 2022-06-23 15:09:28 发布

阅读量5.3k

点赞数 4

分类专栏： pandas python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013310037/article/details/108614990

版权

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

问题提出：有以下两个数据集，df_data、df_FAIL，其中df_data的SN和df_FAIL的SerialNumber的特征是相同的，现在要找出特征在SerialNumber但是不在SN中的集合。

df_data:
在这里插入图片描述
df_FAIL:

分析：如果dataframe数据里面有重复，我们只要找不重复的话需要去重：

去重的差集

1. 首先寻找交集

dataframe筛选数据根据某一个列的数据在另外的一个dataframe的列中：
参考链接

#找到交集
df_FAIL_IN = df_FAIL[df_FAIL["SerialNumber"].isin(df_data["SN"])]

2. 取差集(作某个dataframe和交集的差)

#找df_FAIL - df_FAIL_IN 差集
df_FAIL.append(df_FAIL_IN).append(df_FAIL_IN).drop_duplicates(subset=['SerialNumber'],keep=False)

参考链接
解决思路是这样的：

对于有同样Index的a,b两个DataFrame，如果现在要求a对b的差集，那么可以（1)连续两次扩充a，使用append方法（2）然后使用drop_duplicates方法对a进行去重，并且参数keep=False。原理很简单，也很巧妙，连续扩充2次a，那么新扩充完后的DataFrame中来自b的row肯定是重复的，去重时候，b全部被删除，与此同时，a中跟b重复的row也会顺带着被删除。

不去重的差集：

只需要在1的基础上加上～即可。

#找差集
df_FAIL_OUT = df_FAIL[~ df_FAIL["SerialNumber"].isin(df2["SN"])]

此去经年天问

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

此去经年天问 CSDN认证博客专家 CSDN认证企业博客

码龄11年

38: 原创

31万+: 周排名

142万+: 总排名

19万+: 访问

: 等级

1558: 积分

23: 粉丝

109: 获赞

45: 评论

404: 收藏

私信

关注

热门文章

分类专栏

Idea配置 1篇
git 2篇
Java 7篇
spring 13篇
java面试 3篇
SQL 8篇
linux 2篇
IDEA 1篇
sklearn
Java源码
绘图 1篇
数据结构算法刷题 3篇
deepin 1篇
pandas 8篇
MongoDB 4篇
python 10篇
数据分析
jupyter notebook 7篇
http
vi
java语言学习 14篇
统计学 2篇
工程项目问题 1篇
回归预测
ARMA
Matlab学习 1篇
优化算法 1篇
spyder 1篇

最新评论

Idea设置快捷键关闭IdeaVim模式
78k: 没有 vim emula
[转载]关于对角度0~360角度的滤波------解决0-360跳变问题
yunshangyue: 这个方法没有找到问题的关键
postman 请求转curl
普通网友: 写的真好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
[转载]关于对角度0~360角度的滤波------解决0-360跳变问题
胡一条条: 你反三角函数只能得到-pi/2~pi/2,阈值都变了
利用EasyExcel导入导出多个sheet和多个table
童年655: 实际运用后补充一下，想要返回前台二进制流，能够正常响应xls文件下载的，要设置一下response；[code=java] ExcelWriter excelWriter = null; try { // 想正常返回前台响应流，要设置好格式头、体、格式 response.setContentType("application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"); response.setCharacterEncoding("UTF-8"); // 这里URLEncoder.encode可以防止中文乱码 String fileNameNew = URLEncoder.encode(fileName + "_" + DateUtil.getNowTimeHHMMSS(), "UTF-8").replaceAll("\\+", "%20"); response.setHeader("Content-Disposition", "attachment;filename*=utf-8''" + fileNameNew + ".xlsx"); // 这里替换成入参为输出流的对象 excelWriter = EasyExcel.write(response.getOutputStream()).build(); WriteSheet writeSheet=EasyExcel.writerSheet(fileName).build(); WriteTable writeTable=EasyExcel.writerTable(0).head(CallLinkVO.class).needHead(true).build(); // ....... 后续都一样了 } catch (IOException e){ }finally{ excelWriter.finish(); } [/code]

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。