随着数据量不断增加,抛开可视化技术讲故事是不可能的。数据可视化是一门将数字转化为有用知识的艺术。
R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术。在可视化的技术实现之前,让我们先看看如何选择正确的图表类型。
选择正确的图表类型
基本的展现类型有如下四种:
1. 比较
2. 组成
3. 分布
4. 关系
为了确定哪一种类型的图表适合你的数据,我建议你应该回答一些问题比如,
§ 在一个图表中你想展现多少个变量?
§ 每个变量中你会显示多少个数据点?
§ 你将要显示的是一段时间,一些个体还是一些组的数值?
下图是AndrewAbela博士关于选择正确的图表类型的一个很好的解释。
在你的日常生活中,大部分时间你会接触到以下7种图表。
1. Scattered
Plot(散点图)
2. Histogram(柱状图)
3. Bar
& Stack Bar Chart (条形图和堆积条形图)
4. Box Plot
(箱线图)
5. Area
Chart(面积图)
6. Heat
Map(热点图)
7. Correlogram(相关图)
我们将使用如下图所示的‘大集市数据’样例来展现如何使用R语言创建可视化。
现在让我们一起看如何使用R语言运用这些可视化。
◇◆◇◆◇
散点图 Scatter Plot
什么时候使用:散点图是用来观察两个连续变量之间的关系。
上述的集市数据集中,如果你想根据成本数据可视化商品,那么我们可以使用两个连续变量的散点图,即下图中的Item_Visibility和
Item_MRP。
这是一个使用带有geom_point()的函数ggplot()的简单散点图R语言代码。
library(ggplot2)
// ggplot2 is an R library forvisualizations train.
ggplot(train,aes(Item_Visibility, Item_MRP)) geom_point()
scale_x_continuous("ItemVisibility", breaks = seq(0,0.35,0.05))
scale_y_continuous("ItemMRP", breaks = seq(0,270,by = 30))
theme_bw()
现在我们可以看到第三个变量,一个提供每种数据集特征的类别变量(Item_Type)。下图中,不同的类别通过不同颜色的item_type表示出来。
增加了category的R语言代码:
ggplot(train,aes(Item_Visibility, Item_MRP)) geom_point(aes(color =
Item_Type))
scale_x_continuous("ItemVisibility", breaks = seq(0,0.35,0.05))
scale_y_continuous("Item MRP",breaks = seq(0,270,by =