可视化
文章平均质量分 63
用python、R语言等进行各类作图分析
maizeman126
这个作者很懒,什么都没留下…
展开
-
R语言统计分析——散点图2(散点图矩阵、高密度散点图)
R语言还提供了许多其他的方式来创建散点图矩阵,如:glus包中的cpars()函数,TeachingDemos包中的pairs2()函数,HH包中的xysplom()函数,ResourceSelection包中的kepairs()函数和SMPracticals包中的pairs.mod()函数。值得注意的是,主对角线的上方和下方的六幅散点图是相同的,women也可以通过调整参数,只显示下三角或上三角的图形。由上图可看出,数据点的重叠导致识别x和y的关系变得异常困难。针对这种情况,R语言提供了一些解决办法。原创 2024-09-18 01:00:00 · 408 阅读 · 0 评论 -
R语言统计分析——散点图1(常规图)
本例中plot()函数用于绘制散点图,abline()函数用来添加最佳拟合的线性直线,lowess()函数则用来田间一条平滑曲线(该平滑曲线拟合是一种基于局部加权多项式回归的非参数方法)。car包中的scatterplot()函数增强了散点图的许多功能,它可以很方便地绘制散点图,并且能添加拟合曲线、边界箱线图和置信椭圆,还可以按子集绘图。R语言中创建散点图的基础函数是plot(x,y),其中,x和y是数值型向量,代表着图形中的(x,y)坐标点。参考资料:R语言实战【第2版】原创 2024-09-17 01:00:00 · 443 阅读 · 0 评论 -
python统计分析——直方图(sns.histplot)
当bins为文本时,表示作图时的分组策略,可用选项具体有:'auto', 'fd', 'doane','scott', 'stone', 'rice', 'sturges', 'sqrt'。(13)common_norm=True, 当分组数据作图,stat设置为‘percent’或‘density’时,如果设置为True,表示按整体进行汇总转换,当设置为False时,表示按各组自己的数据汇总转换。(16)fill=True, 用于设置条形图是否有填充,默认为True,下图为设置为False的展示。原创 2024-01-04 04:00:00 · 7034 阅读 · 0 评论 -
excel统计分析——Q-Q图
统计学家认为在抽样较少的情况下,抽样点按照分位数等概率间隔的出现是不合理的,实际情况应该是分布在两端的数据被抽到的概率非常小,中间抽到的概率比较高,于是给出了一些分位点位置的调整方案。Q-Q图全称Quantile-Quantile图,Q-Q图是用于评估两个数据集的分布相似程度的,若数据点分布在直线y=x附近,则两个数据集的分布类似。正态Q-Q图是Q-Q图的一种。普通Q-Q图与正态Q-Q图的不同点在于普通Q-Q图的横坐标是未知数据集的分位数,正态Q-Q图的横坐标是标准正态分布的分位数,其他步骤都一样。原创 2023-12-17 13:26:09 · 2284 阅读 · 0 评论 -
python统计分析——直方图(plt.hist)
当bins为文本时,表示作图时的分组策略,可用选项具体有:'auto', 'fd', 'doane','scott', 'stone', 'rice', 'sturges', 'sqrt'。(8)histtype='bar', 表示直方图的展现形式,有4个备选项:'bar', 'barstacked', 'step', 'stepfilled'。举例说明:当bins=[1,2,3,4]时,用于分组的区间为:[1,2)、[2,3)、[3,4]。(1)x,表示一组数据,即需要制作直方图的一组数据。原创 2024-01-03 05:00:00 · 4799 阅读 · 0 评论 -
excel统计分析——正态性检验(直方图)
如果计算出的组距不是整数,则要上下调整:当组距向上调整时,实际分组数K将比原选定的分组数小,当组距向下调整整时,实际分组数将比原选定的分组数大,这并不影响直方图形态和分析结论。分组过多会使柱子的高度参差波动,直方图将是锯齿型,甚至出现空档,不易显示其分布规律,而且计算量也会增加。直方图可使我们比较容易直接看到数据的分布形状、离散程度和位置状况,通过观察数据的分布,分析是否服从正态分布,有无异常。合理的选择分组数对于正确的使用直方图非常重要。各组的界限默认为:左开右闭,可表示为:(下限值,上限值]。原创 2023-12-13 21:41:49 · 4919 阅读 · 1 评论 -
excel统计分析——P-P图
P-P图(Probability-probability Plot即概率-概率图)是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。4、将样本数据的观测累计概率和正态分布下的理论累计概率一一匹配成数据对,作为x-y坐标系的数据点。1、选中数据,插入散点图,第一列为x轴数据,第二列为y轴数据,第三列为辅助列,用于绘制y=x标准线。2、样本数据从小到大排序,计算个数据点对应的CDF,所谓其观测的累计概率。1、计算出样本统计量:平均数和标准差。原创 2023-12-18 21:11:31 · 1955 阅读 · 0 评论 -
excel统计分析——正态性检验(箱线图)
箱线图由一组数据的5个特征值绘制而成,形式上它由一个箱子和两条线段组成,其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数(mean或Q2)和两个四分位数(下四分位数或QL或Q1,上四分位数或QU或Q3),连接两个四分位数画出箱子,再将两个极值点与箱子相连接。1、利用股价图,模拟箱线图,“成交量”对应“平均数”,“开盘”对应“下四份位数”,“盘高”对应“最大值”,“盘低”对应“最小值”,“收盘”对应“上四分位数”。6、用上一步设置平均数标记的方法,设置最大值和最小值的标记,完成操作。原创 2023-12-14 20:24:03 · 2393 阅读 · 1 评论 -
利用pyecharts绘制自定义位置的地理路径图
以河北省11个地市的地理路径图为例。原创 2023-12-12 20:54:13 · 729 阅读 · 0 评论 -
作物品种测试产量比较热力图
下图即为产出的结果,可以明显看出某个品种在各测试区域的产量对比情况(与对照品种对比增减产的幅度),对品种的下一步参试计划和品种的适应区域有一定的指导意义。通过pyecharts结合产量数据生成地市地图的热力图。原创 2023-11-06 18:46:20 · 64 阅读 · 1 评论 -
利用pyecharts基于经纬度制作散点图
利用pyecharts的Geo作图功能,制作基于经纬度的散点图,并以不同的颜色区分数值范围。原创 2023-11-19 12:08:13 · 532 阅读 · 0 评论 -
python统计分析——小提琴图(sns.violinplot)
(1)data=None,就是数据源。(2)x=None, y=None,如果不指定x和y,则以整列数据绘制一个小提琴;如果制定了x和y,则会按照分类型数据对数值型数据进行分组,来绘制小提琴。原创 2024-01-13 01:00:00 · 2167 阅读 · 0 评论 -
python统计分析——直方图(df.hist)
(4)sharex: 'bool' = False, sharey: 'bool' = False, 用于设置多个图是否共用x轴/y轴坐标系。(5)layout: 'tuple[int, int] | None' = None, 用于设置多个图的布局。(3)grid: 'bool' = True, 用于设置网格线,下图为grid=False的情况。(6)bins: 'int | Sequence[int]' = 10,用于设置数据桶的数目。(2)by=None, 用于指定需要分组的列。原创 2024-01-05 05:00:00 · 1418 阅读 · 0 评论 -
python统计分析——箱线图(sns.boxplot)
(1)x=None,y=None,用于数据显示的轴向。原创 2024-01-10 04:00:00 · 3200 阅读 · 0 评论 -
python统计分析——小提琴图(plt.violinplot)
(1)dataset,需要做的图数据集。原创 2024-01-12 04:00:00 · 1608 阅读 · 0 评论 -
python统计分析——箱线图(plt.boxplot)
(1)x,表示数据源;如果是一维的数组,则直接根据数组的数据产生一个箱线图,如果是二维数组,则按列的方向对数据进行统计,即有几列数据,就做几个箱线图。(2)notch=None,默认为False,即箱框为矩形;若设置为True的箱框沿中间向内凹陷,代表着中位数的置信区间(结合bootstrap参数学习),如下图所示:(3)sym=None,表示对异常值的显示标记。默认显示如下。原创 2024-01-08 04:00:00 · 5186 阅读 · 0 评论 -
python统计分析——箱线图(df.boxplot)
(1)column=None,就是需要绘制箱线图的数据列,默认是全部数据列。因为本例中只有一个数据列,所以跟第一张图一一样。原创 2024-01-11 04:00:00 · 843 阅读 · 0 评论 -
《R语言与农业数据统计分析及建模》学习——ggplot2绘图基础
散点图:用于展示两个变量之间的关系,可用于观察数据的分布、趋势和异常值。折线图:用于展示随时间或其他连续变量变化的趋势,常用于时间序列数据或连续试验结果。饼图:用于显示不同部分占整体的比例,适用于展示百分比或比例数据。柱形图:用于比较不同类别之间的数据,适用于展示离散数据或对比不同处理组的结果。直方图:用于展示数据的分布情况,特别适用于连续数据的分布查看。箱线图:用于展示数据的分布情况和异常值,可同时显示多个组别的数据比较。热力图:用于可视化矩阵型数据,通过颜色映射展示变量之间的关系。原创 2024-04-24 01:00:00 · 984 阅读 · 0 评论 -
python数据分析——seaborn绘图1
jointplot与其他绘图函数的主要区别是,它不返回轴域,所以无需创建带有轴域的画布来放置图。matplotlib库是python的和兴绘图工具,而seaborn基于matplotlib创建,它为绘制统计图提供了更高级的接口,使得只用少量代码就能生成更美观、更复杂的可视化效果。2、密度图(和密度估计):密度图是展现单变量分布的另一种方法,本质上通过绘制以每个数据点为中心的正态分布,然后消除重叠的图。3、计数图(条形图):条形图不是通过对值分组来描述分布的,而是对离散变量计数的。原创 2024-05-14 01:00:00 · 810 阅读 · 0 评论 -
python数据分析——seaborn绘图2
我们知道lmplot是图级(figure-level)函数,而在seaborn中,许多图使用轴域级(axes-level)函数创建的。如果想显示更多变量,或者确定了要实现的可视化图,但向基于一个分类变量画出多幅图,可以使用分面(facet)来满足这些需求。要使用分面,数据必须是“整洁数据”:数据中的每一行都表示一个观测值,每一列是一个变量(也是“长数据”)。当数据大部分是数据时,可以使用pairplot函数把所有成对关系描绘出来,该函数会为每对变量绘制散点图,并且为单变量数据绘制直方图。原创 2024-05-15 01:00:00 · 383 阅读 · 0 评论 -
python数据分析——pandas作图
6、用seaborn设置作图的默认样式,可以用sns.set_style函数更改样式。通常该函数会出现在代码顶部,并且只运行一次,所有后续绘图都会采用这种样式。seaborn有5种样式:darkgrid、whitegrid、dark、white和ticks。使用pandas绘图时,通常要求如下格式使用绘图函数:DataFrame.plot.PLOT_TYPE或Series.plot.PLOT_TYPE。与seaborn一样,pandas中的绘图函数只是使用预设值包装了matplotlib。原创 2024-05-17 01:00:00 · 408 阅读 · 0 评论 -
python数据分析——matplotlib可视化基础
matplotlib可以指定最终图的维数,根据指定的维数放入更小的子图表。当把这些点可视化后,即使每个数据集有相同的汇总统计值,不同数据集的点之间的关系也相差较大。这些值是经过“装箱”(bin)处理的,这意味着将它们分组后绘制成图来显示变量的分布情况。subplot方法有3个参数:子图的行数、子图的列数、子图的位置。子图的位置是按顺序编号的,在python有关绘图的内容中,注意区分“axis”(坐标轴)和“axes”(轴域)的区别。(3)箱线图用于展示一个离散变量随连续变量的变化而呈现的分布状况。原创 2024-05-13 01:00:00 · 467 阅读 · 0 评论 -
R语言统计分析——条形图
若beside=FALSE(默认值),则矩阵中的每一列都将生成图中的一个条形,各列中的值将给出堆砌的“子条”的高度。例如,随着条数的增多,条形的标签可能会开始重叠。若height是一个向量,则它的值就确定了各条形的高度,并将绘制一幅垂直的条形图。我们还可以进一步完善这个示例:如使用gplots包中的barplot2()函数创建叠加有置信区间的均值条形图,可以通过help(barplot2)看到更多的例子。棘状图(spinogram)是对堆砌条形图的重缩放,这样每个条形的高度均为1,每一段的高度即表示比例。原创 2024-07-30 01:00:00 · 1494 阅读 · 0 评论 -
R语言统计分析——直方图、核密度图
其中legend()函数是相同图形上添加一个图例,第一个参数locator(1)表示用鼠标点击想让图例出现的位置来交互地放置这个图例。由于plot()函数会创建一幅新的图形,所以要向一幅已经存在的图形上叠加一条密度曲线,可以使用lines()函数。直方图通过在x轴上讲值域分割为一定数量的组,在y轴上显示相应值得频数,展示了连续型变量的分布。使用sm包中的sm.density.compare()函数可向图形叠加两组或更多的核密度图。其中的x是一个数值型向量,factor是一个分组变量。原创 2024-08-01 01:00:00 · 801 阅读 · 0 评论 -
R语言统计分析——饼图
饼图让比较各扇形的值变得困难(除非这些值被附加在标签上)。为了改善这种状况,R语言中有一种扇形图(fanplot)的饼图变种。扇形图提供了一种同时展示相对数量和相互差异的方法。在R中,扇形图是通过plotrix包中的fan.plot()函数实现的。在一幅扇形图中,各个扇形相互叠加,并对半径做了修改,这样所有扇形都是可见的。其中x是一个非负数值向量,表示每个扇形的面积,而labels则表示各扇形标签的字符型向量。参考资料:R语言实战【第2版】原创 2024-07-31 01:00:00 · 246 阅读 · 0 评论 -
R语言统计分析——点图
其中,x是一个数值向量,而labels则是由每个点的标签组成的向量。我们可以通过添加参数groups来选定一个因子,用以指定x中元素的分组方式。如果这样做,则参数gcolor可以控制不同组标签的颜色,cex可以控制标签的大小。点图提供了一种在简单水平刻度上绘制大量有标签值得方法。通常来说,点图在经过排序并且分组变量被不同的符号和颜色区分开的时候最为有用。参考资料:R语言实战【第2版】原创 2024-08-03 01:00:00 · 144 阅读 · 0 评论 -
R语言统计分析——箱线图
一个示例公式为:有~A,这将为类别型变量A的每个值并列地生成数值型变量的y的箱线图。箱线图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量的分布。外部形状即为和密度估计。由上图可看出四缸、六缸、八缸的油耗中位数是明显不同的,随着汽缸数的增加,每加仑汽油行驶里程约小。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。原创 2024-08-02 01:00:00 · 485 阅读 · 0 评论