数据分析介绍之七——单变量数据观察之汇总统计和箱线图

标签: 数据分析 python
218人阅读 评论(0) 收藏 举报
分类:

模块提供了高效、便捷的numpy Python大数值数组的处理。它的前身是无论是早前的数字和替代Numarray模块。(见附录A中更多的科学计算与Python。史)的NumPy模块使用的许多其他的库和项目,在这个意义上是一个“基地”技术。
让我们在钻研深入技术细节的一些例子看。

一、NumPy in Action

对象的类型是ndarray NumPy。创造它们有不同的方式。我们可以创建一个ndarray的:

  1. 转换Python列表
  2. 使用函数返回一个密集的载体
  3. 从文件直接进入NumPy对象读取数据

清单显示五种不同的方法来创建NumPy对象。首先我们创建一个通过将Python列表。然后,我们展示了两个不同工厂的例程生成等距网格点。这些例程在解释所提供的边界值时各不相同:一个例程包含两个边界值,另一个包含一个边界值,而不包含另一个边界值。接下来我们创建一个填充零矢量和循环中的每个元素的集合。最后,我们从文本文件中读取数据。(这里我只展示了最简单或默认的情况,所有这些例程都有更多的选项可以用来影响他们的行为。)

# Five different ways to create a vector...
import numpy as np
# From a Python list
vec1 = np.array( [ 0., 1., 2., 3., 4. ] )
# arange( start inclusive, stop exclusive, step size )
vec2 = np.arange( 0, 5, 1, dtype=float )
# linspace( start inclusive, stop inclusive, number of elements )
vec3 = np.linspace( 0, 4, 5 )
# zeros( n ) returns a vector filled with n zeros
vec4 = np.zeros( 5 )
for i in range( 5 ):
    vec4[i] = i
# read from a text file, one number per row
vec5 = np.loadtxt( "data" )

最后,所有的五个向量包含相同的数据。你应该注意,用来初始化vec1 Python列表的值是浮点值,我们指定的向量元素显式使用时arange()函数创建vec2类型。(我们一会儿就回来。)

现在我们已经创建了这些对象,我们可以与他们(见下列表)。一个由NumPy提供的主要设备是我们可以像他们的原子数据类型使用numpy对象:我们可以添加、删减和增加他们(等等)而不需要显式的循环。避免显式的循环使得我们的代码更清晰。它也使它更快(因为整个操作是在C中执行的,没有开销)请参见下面的讨论)。

# ... continuation from previous listing
# Add a vector to another
v1 = vec1 + vec2
# Unnecessary: adding two vectors using an explicit loop
v2 = np.zeros( 5 )
for i in range( 5 ):
    v2[i] = vec1[i] + vec2[i]
# Adding a vector to another in place
vec1 += vec2
# Broadcasting: combining scalars and vectors
v3 = 2*vec3
v4 = vec4 + 3
# Ufuncs: applying a function to a vector, element by element
v5 = np.sin(vec5)
# Converting to Python list object again
lst = v5.tolist()

所有操作都是按元素执行的:如果我们添加两个向量,那么每个向量的对应元素将被组合起来,以得到结果向量中的元素。换句话说,紧凑的表达vec1 + vec2为V1在上市相当于用来计算V2显式线圈结构。这是乘法是真实的:vec1 * vec2将导致载体的两个操作数的对应元素已增加元素的元素。(如果你想要一个真正的载体或“点”的产品,你必须使用dot()函数代替。)显然,这需要所有操作数具有相同数量的元素!

>>> import numpy as np
>>> # Create a 12-element vector and reshape into 3x4 matrix
>>> d = np.linspace( 0, 11, 12 )
>>> d.shape = ( 3,4 )
>>> print d
[[ 0. 1. 2. 3.]
[ 4. 5. 6. 7.]
[ 8. 9. 10. 11.]]
>>> # Slicing...
>>> # First row
>>> print d[0,:]
[ 0. 1. 2. 3.]
>>> # Second col
>>> print d[:,1]
[ 1. 5. 9.]
>>> # Individual element: scalar
>>> print d[0,1]
1.0
>>> # Subvector of shape 1
>>> print d[0:1,1]
[ 1.]
>>> # Subarray of shape 1x1
>>> print d[0:1,1:2]
[[ 1.]]
查看评论

数据分析介绍之六——单变量数据观察之汇总统计和箱线图

你可能已经注意到,到目前为止我还没有在所有关于平均数和中位数、标准差等简单的主题发言,和百分位数。...
  • liangzuojiayi
  • liangzuojiayi
  • 2017-10-05 10:13:10
  • 477

Excel-箱线图(数据分布)分析

箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具...
  • zhanghongju
  • zhanghongju
  • 2014-01-18 11:13:28
  • 111560

Bioconductor分析基因芯片数据

使读者初步了解使用Bionconductor完成基因芯片预处理的流程接着详细讲解戏弄i按预处理和数据分析等内容最后深入了解实际工作中会遇到的芯片处理问题以及如何用学到的只是解决问题目的:掌握芯片分析的...
  • mystrugglelife
  • mystrugglelife
  • 2018-02-20 08:18:06
  • 227

数据分析介绍之五——单变量数据观察之排序图和升幅图

有一个与直方图和CDF有关的技术是值得了解的
  • liangzuojiayi
  • liangzuojiayi
  • 2017-10-05 09:49:46
  • 267

统计学笔记----箱形图以及python实践

最近在接触kaggle的竞赛示例,练习了一下,感觉受益匪浅。同时,心中也有个问题。拿到数据之后第一件事是什么?分析数据的情况?怎么分析?分析之后如何去处理数据呢?等等一些数据分析的工作。其中,大家都可...
  • ZengHaihong
  • ZengHaihong
  • 2016-11-22 20:25:33
  • 9413

丑图百讲 | 箱线图应该怎么用

丑图百讲 | 箱线图应该怎么用 2016-07-18 07:48狗熊会 推荐100次 大家好,我是水妈。之前讲了针对离散型变量的两种重要图形:柱状图和饼图。今天我们讲一种针对于连续...
  • mtj66
  • mtj66
  • 2017-06-29 17:02:57
  • 1151

四分位数 箱线图

四分位数 箱线图 建议采用Origin来制作箱线图 作用 箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大...
  • marstonyjiang
  • marstonyjiang
  • 2017-07-28 15:39:08
  • 1999

SPSS常见数据分析方法比较汇总

SPSS作为一款成熟的数据分析工具,其主要特点就是将各种各样的统计分析方法流程化模块化。 一、SPSS常用多变量分析技术比较汇总表 注: 卡方分析:定量两个定性变量的关联程度 简单相关...
  • aurorayqz
  • aurorayqz
  • 2017-04-09 00:54:22
  • 10488

R 学习 - 箱线图

箱线图箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。在2014年的Nature Method上有2篇Correspondence论述了使用箱线图的好处和一个在线绘制箱线图的工具。就这样都可...
  • qazplm12_3
  • qazplm12_3
  • 2017-08-01 08:21:12
  • 3152

扩增子统计绘图1箱线图:Alpha多样性

本网对Markdown排版支持较差,对格式不满意的用户请跳转至 或“宏基因组”公众号阅读;写在前面优秀的作品都有三部分曲,如骇客帝国、教父、指环王等。扩增子系列课程也分为三部曲:第一部《扩增子图表解读...
  • woodcorpse
  • woodcorpse
  • 2017-08-20 22:29:14
  • 697
    个人资料
    等级:
    访问量: 18万+
    积分: 2313
    排名: 1万+
    文章存档
    最新评论