数据可视化 信息可视化_第4课(第2部分)–数据管理和可视化

数据可视化 信息可视化

在R中,对向量中的数据进行排序非常容易。您只需将向量传递给sort函数,便会生成新的排序向量。

默认的排序顺序是升序,但是可以使用argument == TRUE来更改。

但是,在我们的场景中,数据不在矢量中,而是在数据帧中。 让我们检查一下如何对包含在数据框中的数据进行排序。

数据框n.2010包含三列:年份,名称和频率。

无需保留Year属性,因此我们决定过滤数据框以删除Year列。

这是一个使用方括号符号的示例,该示例通过指定方括号内列名称的字符向量来过滤掉Year列。

如果您熟悉SQL,则此任务等同于使用投影来指定SQL语句的SELECT列表中的列。

我们使用head()函数来验证是否已删除Year列。 该函数显示该数据仍按名称保留其原始排序顺序。

要查找最受欢迎的名称,我们必须按频率按降序或降序排序。

我们不能像对向量那样使用函数排序,但是对于数据框,我们将在方括号表示法中使用order函数。

在这里,我们希望通过降低频率值对数据进行排序,并且所有列都应包含在我们的输出中。

最终表达式将Factor向量转换为简单的字符向量,以确定最受欢迎的名称是:Ethan,其次是Liam,Jacob,Lucas和Noah。

每当我们探索了一个数据集并希望将其保存以备将来参考时,我们都可以使用write()函数家族之一。

在这里,我们看到了一些将2010年排序后的男性姓名导出到以逗号分隔的值或csv文件以及制表符分隔文件中的示例。

在许多数据框中,行名实际上并不是用来标识数据的,因此我们使用row.names = FALSE选项来避免在输出文件中写入行名信息。

到目前为止,我们已经在数据框架内处理数据。 现在,让我们使用数据可视化或图形可视化数据趋势。

在此任务中,我们希望提供一种交互式体验,以便用户可以提供一个婴儿名字,然后查看其从1917年到2010年受欢迎程度的单个可视化。

让我们开始吧。

到目前为止,我们已经从外部文件导入了数据,但是之前我们还没有获得用户的输入。

我们可以使用readline()函数从文本文件,网站读取数据,或者在此示例中,我们将使用该函数从标准输入设备或键盘获取数据。 我们使用可选参数指定提示。

为了可视化婴儿名字的趋势,我们将决定使用基于1917年至2010年频率的散点图可视化。

为此,我们创建一个新的数据帧,该数据帧是用户提供的名称的频率子集。 内置的toupper()函数用于将输入的字符串转换为所有大写字母,以便我们可以匹配存储在data.frame中的数据。 我们还只需要Year和Frequency这两个变量。 如果您熟悉SQL,则可以想象使用SQL SELECT语句查询的外观,但是在R中我们做的事情有些不同。

然后,我们对数据框中的数据进行排序,并调用plot()函数。

图函数使用提供的值来生成可视化。

绘图是R中通用函数的一个示例,因为它可以接受许多不同的数据格式,并且它将尝试创建可视化。

让我们看一下可视化。

当将数据作为2个变量的数据框提供给绘图函数时,绘图将为每个观察结果使用圆创建散点图。

请注意如何生成默认标签和比例。

x和y轴标签是根据定义的列名确定的。

接下来,我们将研究plot()函数的一些其他常用选项。

大多数可视化应具有标题。 main参数用于为可视化提供标题。

可以为每个轴指定标签名称,并且可以将打印方法从默认值更改为线条,阶梯或其他表示形式。

让我们看一下婴儿名字数据框的另一个示例。

该图使用相同的数据,但是它使用粘贴功能为我们的图表构建了更精确的标题,并且图的类型从使用圆圈更改为使用阶梯。

R能够帮助我们跨两个变量发现数据集中的趋势。 从这些数据中可以很明显地看出,“ GRANT”的名字在1960年代初最受欢迎,而根据我们的早期分析,我们知道它绝对不是2010年新生儿的前5名。

该图使用相同的数据,但是它使用粘贴功能为我们的图表构建了更精确的标题,并且图的类型从使用圆圈更改为使用阶梯。

R能够帮助我们跨两个变量发现数据集中的趋势。 从这些数据中可以很明显地看出,“ GRANT”的名字在1960年代初最受欢迎,而根据我们的早期分析,我们知道它绝对不是2010年新生儿的前5名。

让我们再看一个趋势分析的例子,并学习更多的绘图选项。

在此数据集中,我们计划检查2013年7月在多伦多的最高和最低温度。

加载数据后,我们检查数据帧的结构并决定继续前进。

请注意,我们的数据中缺少一些风速值,但是我们仅检查温度,因此此时我们可以忽略此变量。

我们希望我们的图表同时包含每月的每一天的最大值和最小值。

因此,我们需要确定值的范围以正确设置轴。

在这里,我们创建了一个名为yrange的变量,其中包含当月的最低温度和最高温度。

在绘制数据时,我们将指定线宽为6像素且颜色为蓝色的线形图类型。 y轴限制是使用我们的yrange向量指定的,并且在初始绘图中也包含了标题。

至此,我们尚未完成,因为我们现在希望将最高温度和轴标签添加到同一图中。

par()函数可用于控制图形的各种功能。 在这里,我们告诉R我们的下一个plot()函数调用应该重用现有的图。

现在,我们添加该月最高温度的红线。 我们还决定此时添加x和y轴标签。

最后一步是将值的轴范围包括到我们的图表中。

R帮助我们探索了7月中旬7月的非常温暖,然后持续了一个凉爽的时期,一直持续到月底。

我们可以使用摘要统计信息来确定7月份的平均温度或平均温度,或者像上一个示例一样检查趋势。

现在,我们要检查一个月中的温度分布。 值的分布通常使用直方图可视化,将数据分组到类别中,然后可视化类别。

这是显示7月最频繁出现的最高温度在22到24摄氏度之间的示例。

breaks参数可用于确定类别的大小。

因此,如果有人问2013年7月在多伦多的情况如何,您将在学习R的基础上进行很多讨论。

R具有更多的数据可视化功能。

最流行的图形R扩展之一是Hadley Wickham所谓的ggplot2,如果您的目标是使用R创建数据可视化,那么探索ggplot2软件包是个好主意。

翻译自: https://bytes.com/topic/apis/insights/958469-lesson-4-part2-data-management-visualization

数据可视化 信息可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值