利用Python Pandas进行数据预处理-数据清洗

本文介绍了数据分析中常见的数据处理方法,包括处理缺失数据、检测异常值、移除重复数据等。通过Python Pandas库演示了如何使用fillna、dropna等函数填充缺失值、删除含有缺失值的行或列,以及如何检测和过滤异常值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据缺失、检测和过滤异常值、移除重复数据

数据缺失
数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。

from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")
print(string_data.isnull())

这里写图片描述

Python内置的None值也会被当作NA处理

from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")

string_data[0]=None
print(string_data.isnull())

这里写图片描述

处理NA的方法有四种:dropna,fillna,isnull,notnull

is(not)null,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。

dropna,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。

问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna(axis=0,how=’any’,thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。

fillna,fillna(value=None,method=None,axis=0)中的value除了基本类型外,还可以使用字典,这样可以实现对不同列填充不同的值。


过滤数据:
对于一个Series,dropna返回一个仅含非空数据和索引值的Series:

from pandas import Series,DataFrame
from numpy import nan as NA

data=Series([1,NA,3.5,NA,7])

print(data.dropna())

这里写图片描述

另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据,可以用thresh参数实现此目的:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.dropna(thresh=2))

这里写图片描述


不想滤除缺失的数据,而是通过其他方式填补“空洞”,fillna是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna(0))

这里写图片描述

若是通过一个字典调用fillna,就可以实现对不同列填充不同的值。

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna({1:111,2:222}))

这里写图片描述

可以利用fillna实现许多别的功能,比如可以传入Series的平均值或中位数:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=Series([1.0,NA,3.5,NA,7])
print(data)
print("...........\n")
print(data.fillna(data.mean()))

这里写图片描述



检测和过滤异常值
异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(1000,4))
print(data.describe())

print("\n....找出某一列中绝对值大小超过3的项...\n")
col=data[3]
print(col[np.abs(col) > 3] )

print("\n....找出全部绝对值超过3的值的行...\n")
print(col[(np.abs(data) > 3).any(1)] )

这里写图片描述



移除重复数据
DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行。

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.duplicated())

这里写图片描述

与此相关的还有一个drop_duplicated方法,它用于返回一个移除了重复行的DataFrame:

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.drop_duplicates())

这里写图片描述


上面的两个方法会默认判断全部列,也可以指定部分列进行重复项判断,假设还有一列值,而只希望根据k1列过滤重复项。

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_duplicates(['k1']))

这里写图片描述

duplicates和drop_duplicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个:

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_duplicates(['k1','k2'],take_last=True))

这里写图片描述

处理大型用户行为数据集时,数据清洗和用户群组的创建分析是至关重要的步骤。《Python实现用户群组分析实战:数据清洗与处理》是深入了解这些流程的实用资源。它通过一系列实际操作,指导你如何有效地使用Python来处理数据。 参考资源链接:[Python实现用户群组分析实战:数据清洗与处理](https://wenku.csdn.net/doc/3gdv48q50q?spm=1055.2569.3001.10343) 首先,数据清洗是确保分析质量的基础。利用Pythonpandas库,可以轻松地对数据进行初步的清洗工作。例如,删除或填充缺失值、去除重复记录、筛选出合理范围的价格等。以下是一个代码示例,演示如何删除价格小于等于0的记录: ```python import pandas as pd # 加载数据集 df = pd.read_csv('user_data.csv') # 筛选出价格大于0的记录 df = df[df['price'] > 0] ``` 在清洗数据后,创建用户群组并进行分析是另一项重要任务。可以依据多个维度,如价格区间、购买时间、行为类型等,创建不同的用户群组。例如,可以根据产品价格创建用户群组,并分析每个群组的用户行为特征。以下是如何使用价格区间创建用户群组的代码示例: ```python # 假设我们已经按照价格筛选出了合理的数据集df # 定义价格区间 bins = [0, 100, 200, 300, 400, 500] labels = ['0-100', '100-200', '200-300', '300-400', '400-500'] # 使用pandas的cut函数将价格数据分组 df['price_range'] = pd.cut(df['price'], bins, labels=labels, right=False) # 分析每个价格区间的用户行为特征 for label in labels: group = df[df['price_range'] == label] print(f 参考资源链接:[Python实现用户群组分析实战:数据清洗与处理](https://wenku.csdn.net/doc/3gdv48q50q?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值