数据可视化信息可视化_第4课（第2部分）–数据管理和可视化

cxygs5788

于 2020-07-09 23:33:25 发布

阅读量221

点赞数

文章标签：可视化 python java 大数据机器学习

原文链接：https://bytes.com/topic/apis/insights/958469-lesson-4-part2-data-management-visualization

版权

数据可视化信息可视化

在R中，对向量中的数据进行排序非常容易。您只需将向量传递给sort函数，便会生成新的排序向量。

默认的排序顺序是升序，但是可以使用argument == TRUE来更改。

但是，在我们的场景中，数据不在矢量中，而是在数据帧中。让我们检查一下如何对包含在数据框中的数据进行排序。

数据框n.2010包含三列：年份，名称和频率。

无需保留Year属性，因此我们决定过滤数据框以删除Year列。

这是一个使用方括号符号的示例，该示例通过指定方括号内列名称的字符向量来过滤掉Year列。

如果您熟悉SQL，则此任务等同于使用投影来指定SQL语句的SELECT列表中的列。

我们使用head（）函数来验证是否已删除Year列。该函数显示该数据仍按名称保留其原始排序顺序。

要查找最受欢迎的名称，我们必须按频率按降序或降序排序。

我们不能像对向量那样使用函数排序，但是对于数据框，我们将在方括号表示法中使用order函数。

在这里，我们希望通过降低频率值对数据进行排序，并且所有列都应包含在我们的输出中。

最终表达式将Factor向量转换为简单的字符向量，以确定最受欢迎的名称是：Ethan，其次是Liam，Jacob，Lucas和Noah。

每当我们探索了一个数据集并希望将其保存以备将来参考时，我们都可以使用write（）函数家族之一。

在这里，我们看到了一些将2010年排序后的男性姓名导出到以逗号分隔的值或csv文件以及制表符分隔文件中的示例。

在许多数据框中，行名实际上并不是用来标识数据的，因此我们使用row.names = FALSE选项来避免在输出文件中写入行名信息。

到目前为止，我们已经在数据框架内处理数据。现在，让我们使用数据可视化或图形可视化数据趋势。

在此任务中，我们希望提供一种交互式体验，以便用户可以提供一个婴儿名字，然后查看其从1917年到2010年受欢迎程度的单个可视化。

让我们开始吧。

到目前为止，我们已经从外部文件导入了数据，但是之前我们还没有获得用户的输入。

我们可以使用readline（）函数从文本文件，网站读取数据，或者在此示例中，我们将使用该函数从标准输入设备或键盘获取数据。我们使用可选参数指定提示。

为了可视化婴儿名字的趋势，我们将决定使用基于1917年至2010年频率的散点图可视化。

为此，我们创建一个新的数据帧，该数据帧是用户提供的名称的频率子集。内置的toupper（）函数用于将输入的字符串转换为所有大写字母，以便我们可以匹配存储在data.frame中的数据。我们还只需要Year和Frequency这两个变量。如果您熟悉SQL，则可以想象使用SQL SELECT语句查询的外观，但是在R中我们做的事情有些不同。

然后，我们对数据框中的数据进行排序，并调用plot（）函数。

图函数使用提供的值来生成可视化。

绘图是R中通用函数的一个示例，因为它可以接受许多不同的数据格式，并且它将尝试创建可视化。

让我们看一下可视化。

当将数据作为2个变量的数据框提供给绘图函数时，绘图将为每个观察结果使用圆创建散点图。

请注意如何生成默认标签和比例。

x和y轴标签是根据定义的列名确定的。

接下来，我们将研究plot（）函数的一些其他常用选项。

大多数可视化应具有标题。 main参数用于为可视化提供标题。

可以为每个轴指定标签名称，并且可以将打印方法从默认值更改为线条，阶梯或其他表示形式。

让我们看一下婴儿名字数据框的另一个示例。

该图使用相同的数据，但是它使用粘贴功能为我们的图表构建了更精确的标题，并且图的类型从使用圆圈更改为使用阶梯。

R能够帮助我们跨两个变量发现数据集中的趋势。从这些数据中可以很明显地看出，“ GRANT”的名字在1960年代初最受欢迎，而根据我们的早期分析，我们知道它绝对不是2010年新生儿的前5名。

该图使用相同的数据，但是它使用粘贴功能为我们的图表构建了更精确的标题，并且图的类型从使用圆圈更改为使用阶梯。

R能够帮助我们跨两个变量发现数据集中的趋势。从这些数据中可以很明显地看出，“ GRANT”的名字在1960年代初最受欢迎，而根据我们的早期分析，我们知道它绝对不是2010年新生儿的前5名。

让我们再看一个趋势分析的例子，并学习更多的绘图选项。

在此数据集中，我们计划检查2013年7月在多伦多的最高和最低温度。

加载数据后，我们检查数据帧的结构并决定继续前进。

请注意，我们的数据中缺少一些风速值，但是我们仅检查温度，因此此时我们可以忽略此变量。

我们希望我们的图表同时包含每月的每一天的最大值和最小值。

因此，我们需要确定值的范围以正确设置轴。

在这里，我们创建了一个名为yrange的变量，其中包含当月的最低温度和最高温度。

在绘制数据时，我们将指定线宽为6像素且颜色为蓝色的线形图类型。 y轴限制是使用我们的yrange向量指定的，并且在初始绘图中也包含了标题。

至此，我们尚未完成，因为我们现在希望将最高温度和轴标签添加到同一图中。

par（）函数可用于控制图形的各种功能。在这里，我们告诉R我们的下一个plot（）函数调用应该重用现有的图。

现在，我们添加该月最高温度的红线。我们还决定此时添加x和y轴标签。

最后一步是将值的轴范围包括到我们的图表中。

R帮助我们探索了7月中旬7月的非常温暖，然后持续了一个凉爽的时期，一直持续到月底。

我们可以使用摘要统计信息来确定7月份的平均温度或平均温度，或者像上一个示例一样检查趋势。

现在，我们要检查一个月中的温度分布。值的分布通常使用直方图可视化，将数据分组到类别中，然后可视化类别。

这是显示7月最频繁出现的最高温度在22到24摄氏度之间的示例。

breaks参数可用于确定类别的大小。

因此，如果有人问2013年7月在多伦多的情况如何，您将在学习R的基础上进行很多讨论。

R具有更多的数据可视化功能。

最流行的图形R扩展之一是Hadley Wickham所谓的ggplot2，如果您的目标是使用R创建数据可视化，那么探索ggplot2软件包是个好主意。

翻译自: https://bytes.com/topic/apis/insights/958469-lesson-4-part2-data-management-visualization

数据可视化信息可视化

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。