Python数据分析——寒假学习[1]（鸢尾花数据集）

m0_70483966

于 2024-01-19 13:28:09 发布

阅读量489

点赞数 5

文章标签： python 学习

本文链接：https://blog.csdn.net/m0_70483966/article/details/135695488

版权

本文介绍了如何使用Python进行数据探索，包括从sklearn库导入数据集，预览、描述数据，通过可视化探索分布，进行相关性分析，以及检测异常值、缺失值和重复值。以鸢尾花数据集为例，展示了关键的探索性数据分析步骤。

摘要由CSDN通过智能技术生成

数据探索（Exploratory Data Analysis, EDA)

在Python中，进行数据探索是数据分析和机器学习项目的重要步骤之一，数据探索的目标是更好地了解数据，解释数据中的模式、趋势和关系。

1-导入相关的工具模块

from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt

2-导入数据集

#加载鸢尾花数据集
iris=datasets.load_iris()
data=pd.DataFrame(data=iris.data,columns=iris.feature_names)
data['target']=iris.target

3-预览数据

data.info()
data.head()
data.describe()

4-探索分布

#数据可视化
plt.figure(figsize=(10,6))
plt.scatter(data['sepal length (cm)'],data['sepal width (cm)'],c=data['target'],cmap='viridis')
plt.xlabel('Sepal Length(cm)')
plt.ylabel('Sepal Width(cm)')
plt.title('Sepal Length vs Sepal Width')
plt.show()

data['target'].hist()

5-相关性分析

#相关性分析
correlation_matrix=data.corr()
print(correlation_matrix)

import seaborn as sns
sns.heatmap(correlation_matrix,annot=True,cmap='coolwarm',linewidths=0.5)

6-检测异常值、缺失值、重复值

异常值：异常值是指与数据集中大多数观测值明显不同的值。它们可能是数据记录中的极端值，通常比其他观测值要远离数据的中心趋势（例如均值或中位数）。异常值会对统计分析和建模产生负面影响。

#异常值检测
plt.boxplot(data['petal length (cm)'])
plt.title('Boxplot of Petal Length')
plt.show()

#缺失值检测
data.isnull().sum()

#重复值检测

data.duplicated()

#这将输出一个布尔值的Series,其中True表示相应的行是重复的。

#统计重复值的数量
data.duplicated().sum()

m0_70483966

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫