数据可视化第五章

本文介绍了大数据可视化中的关系数据可视化,重点讨论了数据的关联性和分布性,并通过Python的ggplot和seaborn库展示了散点图和散点矩阵图的实现,用于揭示数据间的相关关系。
摘要由CSDN通过智能技术生成

大数据可视化技术第五章

关系数据可视化

  • 关系数据再大数据中的应用

  对于关系数据,我们要做的是尝试着探索事物的相关关系,而不再关注难以捉摸的因果关系。这种相关性往往不能告诉读者事物为何产生,但是会给读者一个事物正在发生的提醒。关系数据很容易通过数据进行验证的,也可以通过图表呈现,然后引导读者进行更加深入的研究和探讨。

   分析数据时,也可以从整体进行观察,或者关注数据的分布。数据间是否存在重叠或者是否毫不相干?还可以更宽泛的角度观察各个分布数据的相关关系。其实最重要的一点,就是数据在进行可视化处理后,呈现在读者眼前的图表所表达的意义是什么。

关系数据具有关联性和分布性,下面我们将通过具体实例来了解关系数据的可视化分析,以及如何观察数据间的相关关系。

  • 数据的关联性

   数据的关联性,其核心就是指量化的两个数据间的数理关系。关联性强,是指当一个数值增长时,另一个数值也会随之发生变化。相反地,关联性弱,就是指一个数值增长时,另一个数值几乎没有发生变化。

   数据的关联性主要有正相关、负相关和不相关关系。下面我们用散点图来研究数据的关联性。

  1. 散点图

 

  1. 散点图中显示关联性

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据可视化(五)关系数据可视化 关系数据具有关联性与分布性 数据关联性 数据关联性 两个量化数据之间的数理关系 通过数据关联性可已根据⼀个已知的数值变化来预测另⼀个数值的变化。 散点图 散点图 正相关、负相关、不相关 # 散点图 crime = pd.read_csv("data/crimeRatesByState2005.csv") ( Scatter() .add_xaxis(crime["murder"]) .add_yaxis("", crime["burglary"]) .set_global_opts( title_opts=opts.TitleOpts(title="谋杀案和⼊室盗窃案的关联性散点图",pos_left="center"), xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True),name="谋杀案",name_location="middle",name_gap=30), yaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True),name="⼊室盗窃案",name_location="center",name_gap=50), legend_opts=opts.LegendOpts(is_show=False) ) .set_series_opts(label_opts=opts.LabelOpts(is_show=False)) .render("result/5-2.html") ) #matplotlib实现 crime = pd.read_csv("data/crimeRatesByState2005.csv") crime=crime[crime.state!="United States"] crime=crime[crime.state!="District of Columbia"] plt.scatter(crime["murder"],crime["burglary"]) plt.show() 散点图矩阵 散点图矩阵 同时绘制多个变量间的散点图,快速发现变量间的相关性 #散点图矩阵 crime = pd.read_csv("data/crimeRatesByState2005.csv") crime=crime[crime.state!="United States"] crime=crime[crime.state!="District of Columbia"] crime=crime.drop(["population"],axis=1) crime=crime.drop(["state"],axis=1) g=sns.pairplot(crime,diag_kind="kde",kind='reg')#kde密度曲线reg拟合曲线 plt.show() ⽓泡图 ⽓泡图 由⼤⼩不同的标记表⽰,便于⽐较三个变量 数据的分布性 数据的分布性 可视化图⼏乎可以表⽰所有数据的内容,并且将数据分布的情况也呈现。 例如曲线平坦,代表数据分布均匀;重⼼偏左,⼤部分数据取较低的数值;呈现正态分布。表⽰⼤部分数据在平均值附近。 茎叶图 茎叶图 可以⼀次完成统计分组和次数分配,是探索数据分析中对数据初步形象的描绘。 优点: 1. 统计图上没有原始数据的损失 2. 图中的数据可以随时记录和添加,⽅便使⽤ 直⽅图 直⽅图 ⾼度表⽰数值频率,宽度数值区间。 密度图 密度图 反映数据分布的密度情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值