数据可视化（Data Visualization）

数据科学和人工智能兴趣组

已于 2024-08-26 22:22:05 修改

阅读量1k

点赞数 13

分类专栏：（免费）R语言学习专栏文章标签：信息可视化临床数据科学 r语言数据科学统计学

于 2024-08-26 22:20:46 首次发布

本文链接：https://blog.csdn.net/2301_79425796/article/details/141574985

版权

（免费）R语言学习专栏专栏收录该内容

268 篇文章 6 订阅

订阅专栏

下面内容摘录自《用R 探索医药数据科学》专栏文章的部分内容。

1）栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用，填补了国内R教材中尚未广泛覆盖的部分内容。

2）专栏每篇文章都在 5000 字以上，质量平均分高达 94 分。已发表章节也会增加新的文章，已发表的文章也会更新版本，可留意专栏内容和题目信息。

3）由于每结束一个章节，专栏的优惠力度就会减小，当下正是订阅的最佳优惠时段，诚邀各位积极订阅！看全文请点击下面链接：

1章4节：数据可视化， R 语言的静态绘图和 Shiny 的交互可视化演示（更新20240814）-CSDN博客文章浏览阅读254次。使用R语言，数据科学家和分析师不仅可以快速创建原型，还可以开发全功能的应用程序，供同事、客户或公众使用。这种能力为数据分析和可视化带来了全新的可能性。https://blog.csdn.net/2301_79425796/article/details/141187347?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22141187347%22%2C%22source%22%3A%222301_79425796%22%7D

欢迎订阅我们专栏

.......前面部分请点击上面链接看原文（原文6991字）

一、数据可视化（Data Visualization）

我们知道，数据是对客观事件进行记录并能够被识别的符号，它记录了物体的属性、状态及其之间的关系。理解数据中蕴含的信息是一项重要挑战。安全和可互操作的临床数据集的收集和挖掘对科学进步、人工智能训练、药物研究、科学探索、商业调查和精准医疗至关重要。数据分析的强调使得医疗设备变得普遍，患者特定数据及其相关分析也成为数字健康公司的主要收入来源。需求和数据利用能力推动了健康数据市场的形成，促进了健康数据与医学研究者之间的联系，加快了医学研究和科学突破的进程。

在数据使用过程中，数据可视化（Data Visualization）不可或缺。它能将复杂的临床数据转换成直观的图形和图像，展示数据间的关联和趋势，通过人类视觉思维能力帮助理解大量数据信息，发现数据中的规律，从而提高数据使用效率。在临床数据分析中，医生可以更直观地看到病患的健康趋势、治疗效果以及可能存在的风险因素。例如，通过折线图展示病人的生理参数随时间的变化，医生可以快速发现并分析患者的健康变化趋势。所以，数据可视化能够帮助医生和研究人员快速理解大量复杂的医疗数据，从而支持医学决策和治疗方案的制定。

R语言是目前最常用的数据可视化工具之一，通过ggplot2、recharts、shiy、plotly等扩展包，用户能快速建立需要的模型，并根据数据变化随时调整模型，同时绘制各种常见图表类型。

	R 语言	Python
主要优势	强大的统计分析和数据可视化扩展包（如ggplot2）	强调数据科学生态系统，如matplotlib、seaborn、Plotly
学习曲线	相对简单，语法和概念直接，适合统计分析专业人员	相对漫长，语法多样化，适用于多种应用场景，学习曲线较为陡峭
适用领域	统计分析、学术研究、生物信息学、临床数据分析	数据科学、机器学习、生物信息学、临床试验数据管理
图形类型	高度定制化，适合复杂图形和科研需求	多样化，广泛支持各类图表和图形，适用于多种数据可视化需求
社区支持	强大的统计和数据分析社区支持，专业领域包括生物医学	生态系统完备
交互性	依赖于扩展包（如plotly）	更适合动态数据可视化
实时数据	有一些扩展包支持实时数据的动态可视化	支持实时数据可视化的扩展包较多，适合临床数据监控与分析
工作流	RStudio等集成开发环境支持良好	Jupyter Notebook、Spyder等集成环境广泛支持，适合团队协作与开发

在大数据背景下，知识图谱（Knowledge graph）是一种利用图结构数据模型或拓扑来表示和处理数据的知识库。它通常用于存储和描述对象、事件、情境或抽象概念等实体之间的互联关系。举例来说，可以将医学领域的知识图谱用于分析疾病之间的关联、药物治疗的效果和副作用，以及基因组数据中的基因表达模式。通过数据可视化，可以清晰地展示不同实体之间的相互作用网络，帮助医学研究人员发现新的治疗方法或疾病机制。此外，文献计量学（Bibliometrics）是研究科学文献的分布结构、数量关系及其变化规律的学科。在R语言中，bibliometrix扩展包支持文献计量学的知识图谱展示，提供了各种功能，通过交互式可视化用户界面，用户可以轻松操作，无需编程即可完成大部分功能。这些内容将在本书中详细探讨。

`举例：`

ggplot2是R语言中最流行的数据可视化包之一，由Hadley Wickham开发。它基于“语法图形”的理念，通过组合不同的图形元素来创建图表。

# 加载 ggplot2 包
library(ggplot2)

# 使用 iris 数据集
data(iris)

# 绘制散点图
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species, shape = Species)) +
  geom_point(size = 3, alpha = 0.7) +
  labs(
    title = "Iris Dataset: Sepal Length vs Sepal Width",
    x = "Sepal Length (cm)",
    y = "Sepal Width (cm)",
    color = "Species",
    shape = "Species"
  ) +
  scale_color_manual(values = c("setosa" = "blue", "versicolor" = "green", "virginica" = "red")) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title = element_text(hjust = 0.5, size = 18, face = "bold"),
    axis.title = element_text(size = 14),
    axis.text = element_text(size = 12),
    legend.title = element_text(size = 14),
    legend.text = element_text(size = 12)
  )

二、运用 Shiny 包打造基于鸢尾花数据集的交互式数据可视化应用

在数据科学中，数据的探索和可视化是分析的重要组成部分。R 语言提供了强大的工具来进行数据分析和可视化，其中 Shiny 包允许我们构建交互式的 Web 应用，使用户可以动态地探索数据。本文将详细介绍如何使用 Shiny 构建一个交互式的散点图应用，该应用允许用户选择鸢尾花数据集的不同变量进行可视化，并通过多种选项自定义图形。

.........

欢迎订阅我们专栏，深度系统地学习R语言。

为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用，由于众多同学在计算机编程上经验欠缺，特此开设《用R 探索医药数据科学》专栏。该专栏每周至少会定期更新三篇，直到整个专栏更新完成。每篇文章都在 5000 字以上，质量平均分高达 94 分。还要提醒大家的是，每结束一个章节，专栏的优惠力度就会减小，当下正是订阅的最佳优惠时段，诚邀各位积极订阅！

专栏《用R 探索医药数据科学》链接：https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482