python 检测数据质量，当两个dataFrame中相互判断，当A中出现后更新到B中然后保存到数据库中

最新推荐文章于 2024-09-10 13:01:50 发布

暮色花空

最新推荐文章于 2024-09-10 13:01:50 发布

阅读量70

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jsg_0311/article/details/134241082

版权

def data_check_distinct(rows, distinct_rule, table_name):
    # 获取全部重复的数据
    duplicate_bool_all = rows.duplicated(subset=distinct_rule, keep=False)
    # 获取重复的第一行
    duplicate_bool_first = rows.duplicated(subset=distinct_rule, keep='first')
    repeat_all = rows.loc[duplicate_bool_all == True]
    repeat_first = rows.loc[duplicate_bool_first == False]
    df = pd.DataFrame()
    df2 = pd.DataFrame()
    df2['id'] = repeat_first.iloc[:, 0]
    df2['is_initialize'] = 'TRUE'
    s = df2.set_index('id')['is_initialize']
    df['id'] = repeat_all.iloc[:, 0]
    df['is_initialize'] = ''
    df['table_name'] = table_name
    df['is_initialize'] = df['id'].map(s).fillna(df['is_initialize']).astype(str)
    df['creattime'] = time_nyr(None)
    df.to_sql('repeating_data', con=engine(), index=False, if_exists='append', chunksize=10000)

rows是原始数据，

distinct_rule是字典校验是指的哪些字段判断重复distinct_rule =['xm','zjh','xb','csrq']

table_name是保存的表面

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 检测数据质量，当两个dataFrame中相互判断，当A中出现后更新到B中然后保存到数据库中

distinct_rule是字典校验是指的哪些字段判断重复distinct_rule =['xm','zjh','xb','csrq']table_name是保存的表面。# 获取全部重复的数据。# 获取重复的第一行。rows是原始数据，
复制链接

扫一扫

博客等级

码龄6年

8
原创

14
点赞

16
收藏

10
粉丝

关注

私信

分类专栏

KETTLE 1篇
python 1篇
Eclipse 1篇

最新评论

vpn下Kettle无法连接数据库的处理办法
暮色花空: 我应该是没注意
vpn下Kettle无法连接数据库的处理办法
shakecat: 在BAT命令中，REM 是注释的意思，这么写不起作用的。在我8.2.0.0-342版本的kettle中，我这样写才有用： [code=plain] set OPT=%OPT% "-Djava.net.preferIPv4Stack=true" [/code]
vpn下Kettle无法连接数据库的处理办法
CSDN-Ada助手: 恭喜您写了这么有用的一篇博客，对于遇到vpn下Kettle无法连接数据库这个问题的处理办法提供了很好的指导。希望您能继续坚持创作，分享更多关于技术方面的经验和解决问题的方法。或许下一步可以考虑分享一些实际案例或者深入研究某一技术领域的文章，期待您的更多精彩内容。
python代码，用pandas实现递归数据查找，解决apply单线程的模式
CSDN-Ada助手: 恭喜您写下了第10篇博客！标题看起来非常有趣，而且内容似乎是关于如何使用pandas实现递归数据查找，解决apply单线程的模式。这个主题听起来非常实用，我期待着阅读您的博客，并从中学到更多关于pandas的技巧。在您的下一篇博客中，我希望您可以分享一些关于优化pandas代码性能的方法。谢谢您的辛勤努力，期待着您未来更多的创作！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。