使用pandas和numpy进行数据理解与清晰

处理缺失值

        可以使用dropna()方法删除包含空值的行或列,或者使用fillna()方法填充空值。例如,可以用均值、中位数或众数来填充空值,代码示例如下:

import pandas as pd
df = pd.read_csv('property-data.csv')
df.fillna(df.mean(), inplace=True)  # 使用均值填充

处理重复数据

        可以使用duplicated()方法来识别重复的行,然后使用drop_duplicates()方法删除这些重复的行。例如: 

import pandas as pd

df = pd.DataFrame(data)
duplicates = df[df.duplicated()]
df_unique = df.drop_duplicates()

数据类型转换

有时候需要将数据集中的某一列转换为特定的数据类型,可以使用astype()方法。例如:

df['A'] = df['A'].astype(int)

 数据可视化

    虽然Pandas本身不直接提供数据可视化功能,但它可以与其他可视化库(如Matplotlib、Seaborn等)无缝集成。例如,使用Matplotlib创建直方图:

import matplotlib.pyplot as plt
plt.hist(df['value'], bins=30, edgecolor='black')
plt.title('Histogram of Value')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值