数据可视化 信息可视化
在R中,对向量中的数据进行排序非常容易。您只需将向量传递给sort函数,便会生成新的排序向量。
默认的排序顺序是升序,但是可以使用argument == TRUE来更改。
但是,在我们的场景中,数据不在矢量中,而是在数据帧中。 让我们检查一下如何对包含在数据框中的数据进行排序。
数据框n.2010包含三列:年份,名称和频率。
无需保留Year属性,因此我们决定过滤数据框以删除Year列。
这是一个使用方括号符号的示例,该示例通过指定方括号内列名称的字符向量来过滤掉Year列。
如果您熟悉SQL,则此任务等同于使用投影来指定SQL语句的SELECT列表中的列。
我们使用head()函数来验证是否已删除Year列。 该函数显示该数据仍按名称保留其原始排序顺序。
要查找最受欢迎的名称,我们必须按频率按降序或降序排序。
我们不能像对向量那样使用函数排序,但是对于数据框,我们将在方括号表示法中使用order函数。
在这里,我们希望通过降低频率值对数据进行排序,并且所有列都应包含在我们的输出中。
最终表达式将Factor向量转换为简单的字符向量,以确定最受欢迎的名称是:Ethan,其次是Liam,Jacob,Lucas和Noah。
每当我们探索了一个数据集并希望将其保存以备将来参考时,我们都可以使用write()函数家族之一。
在这里,我们看到了一些将2010年排序后的男性姓名导出到以逗号分隔的值或csv文件以及制表符分隔文件中的示例。
在许多数据框中,行名实际上并不是用来标识数据的,因此我们使用row.names = FALSE选项来避免在输出文件中写入行名信息。
到目前为止,我们已经在数据框架内处理数据。 现在,让我们使用数据可视化或图形可视化数据趋势。
在此任务中,我们希望提供一种交互式体验,以便用户可以提供一个婴儿名字,然后查看其从1917年到2010年受欢迎程度的单个可视化。
让我们开始吧。
到目前为止,我们已经从外部文件导入了数据,但是之前我们还没有获得用户的输入。
我们可以使用readline()函数从文本文件,网站读取数据,或者在此示例中,我们将使用该函数从标准输入设备或键盘获取数据。 我们使用可选参数指定提示。
为了可视化婴儿名字的趋势,我们将决定使用基于1917年至2010年频率的散点图可视化。
为此,我们创建一个新的数据帧,该数据帧是用户提供的名称的频率子集。 内置的toupper()函数用于将输入的字符串转换为所有大写字母,以便我们可以匹配存储在data.frame中的数据。 我们还只需要Year和Frequency这两个变量。 如果您熟悉SQL,则可以想象使用SQL SELECT语句查询的外观,但是在R中我们做的事情有些不同。
然后,我们对数据框中的数据进行排序,并调用plot()函数。
图函数使用提供的值来生成可视化。
绘图是R中通用函数的一个示例,因为它可以接受许多不同的数据格式,并且它将尝试创建可视化。
让我们看一下可视化。
当将数据作为2个变量的数据框提供给绘图函数时,绘图将为每个观察结果使用圆创建散点图。
请注意如何生成默认标签和比例。
x和y轴标签是根据定义的列名确定的。
接下来,我们将研究plot()函数的一些其他常用选项。
大多数可视化应具有标题。 main参数用于为可视化提供标题。
可以为每个轴指定标签名称,并且可以将打印方法从默认值更改为线条,阶梯或其他表示形式。
让我们看一下婴儿名字数据框的另一个示例。
该图使用相同的数据,但是它使用粘贴功能为我们的图表构建了更精确的标题,并且图的类型从使用圆圈更改为使用阶梯。
R能够帮助我们跨两个变量发现数据集中的趋势。 从这些数据中可以很明显地看出,“ GRANT”的名字在1960年代初最受欢迎,而根据我们的早期分析,我们知道它绝对不是2010年新生儿的前5名。
该图使用相同的数据,但是它使用粘贴功能为我们的图表构建了更精确的标题,并且图的类型从使用圆圈更改为使用阶梯。
R能够帮助我们跨两个变量发现数据集中的趋势。 从这些数据中可以很明显地看出,“ GRANT”的名字在1960年代初最受欢迎,而根据我们的早期分析,我们知道它绝对不是2010年新生儿的前5名。
让我们再看一个趋势分析的例子,并学习更多的绘图选项。
在此数据集中,我们计划检查2013年7月在多伦多的最高和最低温度。
加载数据后,我们检查数据帧的结构并决定继续前进。
请注意,我们的数据中缺少一些风速值,但是我们仅检查温度,因此此时我们可以忽略此变量。
我们希望我们的图表同时包含每月的每一天的最大值和最小值。
因此,我们需要确定值的范围以正确设置轴。
在这里,我们创建了一个名为yrange的变量,其中包含当月的最低温度和最高温度。
在绘制数据时,我们将指定线宽为6像素且颜色为蓝色的线形图类型。 y轴限制是使用我们的yrange向量指定的,并且在初始绘图中也包含了标题。
至此,我们尚未完成,因为我们现在希望将最高温度和轴标签添加到同一图中。
par()函数可用于控制图形的各种功能。 在这里,我们告诉R我们的下一个plot()函数调用应该重用现有的图。
现在,我们添加该月最高温度的红线。 我们还决定此时添加x和y轴标签。
最后一步是将值的轴范围包括到我们的图表中。
R帮助我们探索了7月中旬7月的非常温暖,然后持续了一个凉爽的时期,一直持续到月底。
我们可以使用摘要统计信息来确定7月份的平均温度或平均温度,或者像上一个示例一样检查趋势。
现在,我们要检查一个月中的温度分布。 值的分布通常使用直方图可视化,将数据分组到类别中,然后可视化类别。
这是显示7月最频繁出现的最高温度在22到24摄氏度之间的示例。
breaks参数可用于确定类别的大小。
因此,如果有人问2013年7月在多伦多的情况如何,您将在学习R的基础上进行很多讨论。
R具有更多的数据可视化功能。
最流行的图形R扩展之一是Hadley Wickham所谓的ggplot2,如果您的目标是使用R创建数据可视化,那么探索ggplot2软件包是个好主意。
翻译自: https://bytes.com/topic/apis/insights/958469-lesson-4-part2-data-management-visualization
数据可视化 信息可视化