1、加载相关库和数据集
- 使用的库主要有:pandas、numpy、sklearn、matplotlib、seaborn
- 使用的数据集:sklearn库中的鸢尾花数据集
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
plt.rcParams["font.family"] = "SimHei"
plt.rcParams["axes.unicode_minus"] = False
warnings.filterwarnings("ignore")
2、使用主要信息构造DataFrame
iris = load_iris()
data = np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
feature_names = iris.feature_names
feature_names.append("target")
df = pd.DataFrame(data,columns=feature_names)
3、点估计
- 使用样本的统计量去代替总体参数
- 能够给出具体的估计值
- 实现简单,但是容易受到随机抽样的影响,可能无法保证结论的准确性。
sepal_length = df["sep