关闭

数据分析介绍之七——单变量数据观察之汇总统计和箱线图

标签: 数据分析python
115人阅读 评论(0) 收藏 举报
分类:

模块提供了高效、便捷的numpy Python大数值数组的处理。它的前身是无论是早前的数字和替代Numarray模块。(见附录A中更多的科学计算与Python。史)的NumPy模块使用的许多其他的库和项目,在这个意义上是一个“基地”技术。
让我们在钻研深入技术细节的一些例子看。

一、NumPy in Action

对象的类型是ndarray NumPy。创造它们有不同的方式。我们可以创建一个ndarray的:

  1. 转换Python列表
  2. 使用函数返回一个密集的载体
  3. 从文件直接进入NumPy对象读取数据

清单显示五种不同的方法来创建NumPy对象。首先我们创建一个通过将Python列表。然后,我们展示了两个不同工厂的例程生成等距网格点。这些例程在解释所提供的边界值时各不相同:一个例程包含两个边界值,另一个包含一个边界值,而不包含另一个边界值。接下来我们创建一个填充零矢量和循环中的每个元素的集合。最后,我们从文本文件中读取数据。(这里我只展示了最简单或默认的情况,所有这些例程都有更多的选项可以用来影响他们的行为。)

# Five different ways to create a vector...
import numpy as np
# From a Python list
vec1 = np.array( [ 0., 1., 2., 3., 4. ] )
# arange( start inclusive, stop exclusive, step size )
vec2 = np.arange( 0, 5, 1, dtype=float )
# linspace( start inclusive, stop inclusive, number of elements )
vec3 = np.linspace( 0, 4, 5 )
# zeros( n ) returns a vector filled with n zeros
vec4 = np.zeros( 5 )
for i in range( 5 ):
    vec4[i] = i
# read from a text file, one number per row
vec5 = np.loadtxt( "data" )

最后,所有的五个向量包含相同的数据。你应该注意,用来初始化vec1 Python列表的值是浮点值,我们指定的向量元素显式使用时arange()函数创建vec2类型。(我们一会儿就回来。)

现在我们已经创建了这些对象,我们可以与他们(见下列表)。一个由NumPy提供的主要设备是我们可以像他们的原子数据类型使用numpy对象:我们可以添加、删减和增加他们(等等)而不需要显式的循环。避免显式的循环使得我们的代码更清晰。它也使它更快(因为整个操作是在C中执行的,没有开销)请参见下面的讨论)。

# ... continuation from previous listing
# Add a vector to another
v1 = vec1 + vec2
# Unnecessary: adding two vectors using an explicit loop
v2 = np.zeros( 5 )
for i in range( 5 ):
    v2[i] = vec1[i] + vec2[i]
# Adding a vector to another in place
vec1 += vec2
# Broadcasting: combining scalars and vectors
v3 = 2*vec3
v4 = vec4 + 3
# Ufuncs: applying a function to a vector, element by element
v5 = np.sin(vec5)
# Converting to Python list object again
lst = v5.tolist()

所有操作都是按元素执行的:如果我们添加两个向量,那么每个向量的对应元素将被组合起来,以得到结果向量中的元素。换句话说,紧凑的表达vec1 + vec2为V1在上市相当于用来计算V2显式线圈结构。这是乘法是真实的:vec1 * vec2将导致载体的两个操作数的对应元素已增加元素的元素。(如果你想要一个真正的载体或“点”的产品,你必须使用dot()函数代替。)显然,这需要所有操作数具有相同数量的元素!

>>> import numpy as np
>>> # Create a 12-element vector and reshape into 3x4 matrix
>>> d = np.linspace( 0, 11, 12 )
>>> d.shape = ( 3,4 )
>>> print d
[[ 0. 1. 2. 3.]
[ 4. 5. 6. 7.]
[ 8. 9. 10. 11.]]
>>> # Slicing...
>>> # First row
>>> print d[0,:]
[ 0. 1. 2. 3.]
>>> # Second col
>>> print d[:,1]
[ 1. 5. 9.]
>>> # Individual element: scalar
>>> print d[0,1]
1.0
>>> # Subvector of shape 1
>>> print d[0:1,1]
[ 1.]
>>> # Subarray of shape 1x1
>>> print d[0:1,1:2]
[[ 1.]]
0
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

“多变量分析”——数据挖掘、数据分析

I。多重对应分析   多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,...
  • achuo
  • achuo
  • 2016-05-03 17:07
  • 18061

16种常用的数据分析方法汇总

经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计是指运...
  • anxixiaomu
  • anxixiaomu
  • 2017-04-04 16:16
  • 9964

python数据分析pandas包入门学习(三)汇总和统计描述

本文参考《利用Python进行数据分析》的第五章 pandas入门 pandas拥有一组常用的数学和统计方法。它们大部分属于约简和汇总统计,用于从Series中提取单个值(如sum和mean...
  • helen1313
  • helen1313
  • 2016-11-23 09:59
  • 8251

用Python做单变量数据集的异常点分析

http://my.oschina.net/taogang/blog/279402
  • fennvde007
  • fennvde007
  • 2014-10-08 14:32
  • 1311

用Python做单变量数据集的异常点分析

所谓单变量,就是指数据集中只有一个变化的值,其他变量不变,对一个变量进行异常检测,无变量相关性影响。 数据文件:http://download.csdn.net/detail/elmo66/97881...
  • Elmo66
  • Elmo66
  • 2017-04-10 20:04
  • 333

用Python做单变量数据集的异常点分析

大数据时代,数据的异常分析被广泛的用于各个场合。 今天我们就来看一看其中的一种场景,对于单变量数据集的异常检测。 所谓单变量,就是指数据集中只有一个变化的值,下面我们来看看今天我们要分析的的数据,点...
  • github_39335046
  • github_39335046
  • 2017-06-30 09:39
  • 93

【Python那些事儿】用图表分析单变量数据

准备工作我们采用EDA(探索性数据分析)方式对数据集进行探索,并通过可视化进行展示。这里使用pyplot来绘制图形进行数据可视化,pyplot是matplotlib绘图库的状态机接口。 数据集:19...
  • duxu24
  • duxu24
  • 2017-06-09 21:01
  • 276

用Python做单变量数据集的异常点分析

来自:http://my.oschina.net/taogang/blog/279402
  • fennvde007
  • fennvde007
  • 2014-07-07 17:55
  • 1005

Excel-箱线图(数据分布)分析

本文摘自作者《网站数据分析:数据驱动的网站管理、优化和运营 》:http://item.jd.com/11295690.html 箱线图(Boxplot)也称箱须图(Box-whisker Pl...
  • lhyer
  • lhyer
  • 2016-01-15 15:35
  • 516

Excel-箱线图(数据分布)分析

箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具...
  • zhanghongju
  • zhanghongju
  • 2014-01-18 11:13
  • 101248
    个人资料
    • 访问:130559次
    • 积分:2006
    • 等级:
    • 排名:千里之外
    • 原创:100篇
    • 转载:1篇
    • 译文:0篇
    • 评论:3条
    文章分类
    最新评论