Python数据分析——寒假学习[1](鸢尾花数据集)

数据探索(Exploratory Data Analysis, EDA)

在Python中,进行数据探索是数据分析和机器学习项目的重要步骤之一,数据探索的目标是更好地了解数据,解释数据中的模式、趋势和关系。

1-导入相关的工具模块

from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt

2-导入数据集

#加载鸢尾花数据集
iris=datasets.load_iris()
data=pd.DataFrame(data=iris.data,columns=iris.feature_names)
data['target']=iris.target

3-预览数据

data.info()
data.head()
data.describe()

4-探索分布

#数据可视化
plt.figure(figsize=(10,6))
plt.scatter(data['sepal length (cm)'],data['sepal width (cm)'],c=data['target'],cmap='viridis')
plt.xlabel('Sepal Length(cm)')
plt.ylabel('Sepal Width(cm)')
plt.title('Sepal Length vs Sepal Width')
plt.show()
data['target'].hist()

5-相关性分析

#相关性分析
correlation_matrix=data.corr()
print(correlation_matrix)
import seaborn as sns
sns.heatmap(correlation_matrix,annot=True,cmap='coolwarm',linewidths=0.5)

6-检测异常值、缺失值、重复值

异常值:异常值是指与数据集中大多数观测值明显不同的值。它们可能是数据记录中的极端值,通常比其他观测值要远离数据的中心趋势(例如均值或中位数)。异常值会对统计分析和建模产生负面影响。

#异常值检测
plt.boxplot(data['petal length (cm)'])
plt.title('Boxplot of Petal Length')
plt.show()
#缺失值检测
data.isnull().sum()
#重复值检测

data.duplicated()

#这将输出一个布尔值的Series,其中True表示相应的行是重复的。
#统计重复值的数量
data.duplicated().sum()

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值