import pandas as pd
import seaborn as sns
from math import sqrt
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
# 通过read_csv来读取我们的目的数据集
adv_data = pd.read_csv('C:/Users/24224/Documents/课程内容集合/srf/diabetes.csv',engine='python')
# 得到我们所需要的数据集且查看其前几列以及数据形状
print('head:', adv_data.head(), '\nShape:', adv_data.shape)
print("1CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCC")
'''
# 数据描述
print(adv_data.describe())
print("2CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCC")
# 缺失值检验
print(adv_data[adv_data.isnull() == True].count())
print("3CCCCCCCCCCCCCCCCCCCC