python series去重_数据预处理之去重逆向(python)

最新推荐文章于 2023-08-09 10:27:00 发布

weixin_39767322

最新推荐文章于 2023-08-09 10:27:00 发布

阅读量521

点赞数

文章标签： python series去重

之前因为有根据二维数据表的某一列去重后生成新数据表的需求，写了一个简单代码，具体参见数据预处理之一些需要去重的情况处理，具体效果都在那篇文章里了，如果需要逆向呢？就是将数据从合并的列变成包含重复项的列，有些像宽表变长表；比较直接的思路还是逐行遍历，遇到有合并数据的行就拆分。

下面是简要演示步骤：

1，创建一个简单的测试数据

4458b0c737bb?utm_campaign=maleskine&utm_content=note&utm_medium=reader_share&utm_source=weixin

创建一个简单的测试数据

2，进行合并去重

ndf=pd.DataFrame(columns=df.columns) #根据df的列名建一个空表ndf

uids=set(df['uid'])

for u in uids:

one=df.loc[df['uid']==u] #获取所有uid等于u的行，之后只会保存一行

#在这里写if然后只保留一行，然后concat到ndf上，实现只保留一行

olst=list(one['name']) #或者用set

zero=one.iloc[[0]] #iloc[行号]是series iloc[[行号]]是dataframe

#zero['name']=str(olst)

if len(olst)>1: #等于1的就不用改了

zero['name']=str(olst) #or =''.join(olst)

ndf=pd.concat([ndf,zero]) #把选出来的zero加到ndf里

4458b0c737bb?utm_campaign=maleskine&utm_content=note&utm_medium=reader_share&utm_source=weixin

去重后的效果

3，去重逆向

cdf=pd.DataFrame(columns=ndf.columns) #据df的列名建一个空表ndf

for i, r in ndf.iterrows():

if '[' in r['name']: #如果是需要拆分的行

nlst=r['name'].split(',') #拆分

for n in nlst:

k=n.strip("[]'").replace("'",'')

zero=ndf.loc[[i]]

zero['name']=k

cdf=pd.concat([cdf,zero])

else: #不需要拆分就直接加到后面

zero=ndf.loc[[i]]

cdf=pd.concat([cdf,zero])

cdf

4458b0c737bb?utm_campaign=maleskine&utm_content=note&utm_medium=reader_share&utm_source=weixin

逆向后效果

里面比较有意思的点是在去重的时候用的是one.iloc[[0]]，因为iloc[行号]是series，而iloc[[行号]]是dataframe,在逆向的时候尝试用iloc会遇到索引i的bug，经过探索发现loc[[i]]可以用，于是写zero=ndf.loc[[i]]，iloc和loc配合真的很有趣。

weixin_39767322

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python series去重_数据预处理之去重逆向(python)

之前因为有根据二维数据表的某一列去重后生成新数据表的需求，写了一个简单代码，具体参见数据预处理之一些需要去重的情况处理，具体效果都在那篇文章里了，如果需要逆向呢？就是将数据从合并的列变成包含重复项的列，有些像宽表变长表；比较直接的思路还是逐行遍历，遇到有合并数据的行就拆分。下面是简要演示步骤：1，创建一个简单的测试数据创建一个简单的测试数据2，进行合并去重ndf=pd.DataFrame(colu...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。