一文了解数据分析:以糖尿病数据为例
第一步:导入数据
一般来说,我们的数据都是从外部导入的,我们接触的最多的数据格式是CSV、Excel、xml。它们可以这么导入:
import pandas as pd
pd.read_csv("/file.csv") # 导入csv格式的数据
pd.read_excel("/file.excel") # 导入excel格式的数据
pd.read_xml("/file.excel") # 导入xml格式的数据
如果处理的是sklearn包中自带的糖尿病数据
data_diabetes = load_diabetes()
data_diabetes
![](https://img-blog.csdnimg.cn/06c99cf0746341d3be817da03fbf995a.png)
第二步:构建数据集,观察数据特点
从第一步中观察数据集的组成,我们可以将其分别提取出来,构成一个新的数据集合
(这里数据集指的是pandas中的DataFrame)
# 构建数据集
data = data_diabetes['data']
target = data_diabetes['target']
feature_names = data_diabetes['feature_names']
df = pd.DataFrame(data,columns=feature_names)
df['target'] = target
观察数据,这步很重要
df.head(10)
df.info()
![](https://img-blog.csdnimg.cn/32b9c917ee3d4142a71eb9b5da604940.png)
这些信息是由 pandas 库中 DataFrame.info() 方法自动生成的,用于描述数据框的列信息。具体来说,每一列都会显示以下信息:
- Column:列名;
- Non-Null Count:非空值的数量;
- Dtype:数据类型。