python pandas数据挖掘实验

该博客详细介绍了使用Python的pandas库进行数据挖掘的过程,包括读取iris_pandas数据集,处理缺失值(通过删除、众数、均值、中位数填充),异常值检测(标准差法),以及利用groupby进行数据分组和统计分析。内容涵盖了数据预处理的重要步骤。
摘要由CSDN通过智能技术生成

1. 导入iris_pandas数据集并保持文本不变read_table。

import pandas as pd
isir=pd.read_table(r'C:\Users\ asus \Desktop\iris_pandas.csv',sep=',')
print(isir.head())

   SepalLength  SepalWidth  PetalLength  PetalWidth      species
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         0.1          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
3          4.6         3.1          1.5         NaN  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa

2. 删除有缺失值的行和列

import pandas as pd
isir=pd.read_table(r'C:\Users\asus\Desktop\iris_pandas.csv',sep=',')
isir2=isir.dropna()
print(isir2.head())

        SepalLength  SepalWidth  PetalLength  PetalWidth      species
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         0.1          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa
5          5.4         3.9          1.7         0.4  Iris-setosa

3. 重新导入iris_pandas,用众数、均值、中位数分别替换SepalWidth、PetalLength、PetalWidth列空数据

import pandas as pd
isir=pd.read_table(r'C:\Users\asus\Desktop\iris_pandas.csv',sep=',')
isir2=isir.fillna(value={
   'SepalWidth':isir.SepalWidth.mode()[0],'PetalLength'
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值