实验五:
【实验要求】
1.直方图与核密度图有何不同?
直方图是一种用来表示数据频率分布的图形。它将数据分成一系列的连续区间(也称为箱子或柱),然后统计每个区间内数据点的数量,并将这些数量表示为柱状图的高度。直方图可以提供数据的整体分布情况,例如数据的集中趋势、离散程度以及异常值等。
核密度图则是通过在数据点周围创建核密度估计来展示数据的概率密度分布。它使用平滑的曲线代表数据分布的密度情况,而不是使用离散的柱状图。核密度图可以更加平滑地显示数据的分布特征,并且可以用于发现多个峰值、比较多个分布以及识别异常值等。
2.说明箱线图和小提琴图的主要用途。
箱线图(Box Plot)是一种展示数据分布和离群值的图表。它由一个矩形框和两条延伸出去的线组成。矩形框的上边界表示数据的上四分位数,下边界表示数据的下四分位数,矩形框内部的线表示数据的中位数。延伸出去的线(也称为"触须")代表数据的整体范围,一般会加上异常值的标记。箱线图可以用于比较多个数据集的中心位置、离散程度以及异常值情况。
小提琴图(Violin Plot)是一种将箱线图和核密度图结合起来的图表。它通过在垂直方向上展示核密度估计曲线,同时在水平方向上展示箱线图,从而提供了更多关于数据分布的信息。小提琴图可以显示数据的整体分布形状、中位数、四分位数以及可能存在的多个峰值等特征。
3.Faithful是R自带的数据集。该数据集记录了美国黄石国家公园老忠实间歇喷泉的喷发持续时间和下一次喷发的等待时间的272个观测数据。根据该数据集绘制一下图形,分析数据的分布特征。
(1)绘制eruptions的直方图,并为直方图添加扰动点及核密度曲线。