Python数据分析个人笔记3

一、NumPy 中的矩阵

numpy的ndarray类用于表示矩阵和向量。 要在numpy中构造矩阵,我们在列表中列出矩阵的行, 并将该列表传递给numpy数组构造函数。矩阵里的元素可以是数字、符号或数学式。以下是一个由 25个数字元素构成的 4行 6列的矩阵:

import numpy as np
arr01 = np.arange(1,25).reshape(4,6)
arr01
array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24]])

1、数组转矩阵

matlib函数将数组转换为矩阵

mat01 = np.matrix(arr01)
mat01
matrix([[ 1,  2,  3,  4,  5,  6],
        [ 7,  8,  9, 10, 11, 12],
        [13, 14, 15, 16, 17, 18],
        [19, 20, 21, 22, 23, 24]])
arr02 = np.ones(shape=(6,4))
arr02
array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

mat02 = np.matrix(arr02)
mat02
matrix([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

2、矩阵的运算

在这里插入图片描述

# 将数组进行矩阵运算
arr01 @ arr02
array([[ 21.,  21.,  21.,  21.],
       [ 57.,  57.,  57.,  57.],
       [ 93.,  93.,  93.,  93.],
       [129., 129., 129., 129.]])

# 矩阵运算
mat01 * mat02
matrix([[ 21.,  21.,  21.,  21.],
        [ 57.,  57.,  57.,  57.],
        [ 93.,  93.,  93.,  93.],
        [129., 129., 129., 129.]])

二、统计函数

1、集中程度度量

1.1平均值

​ 定义:
​ 是将一组数据加总后除以数据的个数得到的结果

​ 种类:
​ 算术平均值(mean) 简单平均
​ 加权平均值

​ 几何平均值

​ 调和平均值

​ 特点:
​ 相当于一组数据的重心
​ 任何一个数据取值发生变化都会影响平均值
​ 对极端值(极大值,极小值)敏感

1.2中位数(median)

​ 定义:
​ 将一组数据排序后位于中间位置的那个数值

​ 样本数量(n):
​ n = 奇数
​ 最中间的那个数
​ n = 偶数
​ 最中间两个数的平均值

​ 特点:
​ 先排序,不分升序降序
​ 对极端值不敏感

1.3四分位数(quartile)

​ 定义:
​ 将一组数据由小到大排序后,分别位于25%、50%和75%位置上的三个数

​ 计算方法:
​ 先排序,从小到大
​ 确定位置
​ 上四分位数
​ (n+1)/4
​ 下四分位数
​ 3(n+1)/4

1.4百分位数(percentile)

​ 定义:
​ 一组数据由小到大排序后,用99个点将数据划分成100等份,那么这些分位点上对应的数值就是百分位数

​ 计算方法:
​ 先排序,从小到大
​ 确定位置
​ k%分位数位置=(n+1)×k%

1.5众数(mode)

​ 定义:
​ 一组数据中出现频数最高的数值

​ 特点:
​ 无序类别数据
​ 不会受极端值的影响
​ 众数不唯一
​ 一组数据中可能有多个众数,也可能没有众数

1.6应用

​ 如果数据存在较为严重的偏斜程度(即存在极端值),均值对一组数据平均水平的代表性较差,此时计算中位数可能是更好的选择。

2、离散程度度量

1.1极差(range)

​ 定义:
​ 是一组数据中最大值和最小值的差值,也称全距

​ 特点:
​ 计算简单,反映了一组数据取值的波动范围
​ 对极端值十分敏感,对数据内部的具体变动情况揭示不够完整

1.2四分位差

​ 定义:
​ 一组数据上四分位数与下四分位数的差值,也称四分位距或内距

​ 特点:
​ 反映了中间50%数据的离散程度
​ 不受极端值的影响

1.3方差(variance)

​ 定义:
​ 用于度量一组数据中每一个数值与该组数据均值的平均偏离程度的重要统计量

​ 计算:

​ 假设你得到一堆数,x1,x2,x3…xn

​ 平均数x=(x1+x2+x3+…+xn)/n

​ 方差s=[(x1-x)2+(x2-x)2+…+(xn-x)^2]/n

​ 特点:
​ 方差越大,波动越大,越不稳定
​ 方差越小,波动越小,越稳定

1.4标准差(standard deviation)

​ 定义:
​ 方差的平方根,反映组内个体间的离散程度

​ 计算:
​ 方差平方根

​ 特点:
​ 方差和标准差利用了每一个原始数据的取值
​ 标准差具有与原始数据相同的计量单位

1.5离散系数(coefficient of variation)

​ 定义:
​ 一组数据的标准差与该组数据均值的比值,也称变异系数,通常用CV表示

​ 特点:

​ 比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。(优点)

​ 当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。变异系数无法发展出类似于均值的置信区间的工具。(缺点)

1.6最大值

已知的数据中的最大的一个值

1.7最小值

已知的数据中的最小的一个值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

红陌樱花vip

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值