数据可视化（pyecharts 1.7.1）学习笔记——系列笔记（3）

最新推荐文章于 2023-04-04 20:14:40 发布

masonsxu

最新推荐文章于 2023-04-04 20:14:40 发布

阅读量1.3k

点赞数

文章标签： python 数据分析 numpy 数据可视化

本文链接：https://blog.csdn.net/one_a_xiaobai/article/details/105464106

版权

三、Python数据分析基础库Numpy

1、数组、Numpy

1）数组

一维的数据称为向量
- 集合
  - 集合中的元素不要求是相同的类型
- 元组
  - 元组中的元素也不要求是相同的类型
- 列表
  - 列表中的元素可以是不同的类型
- 一维数组
  - 数据会将输入的数据转换为一致的数据类型
  - 数组计算的速度较其他类型都快
二维的数据称为矩阵
- 矩阵
- 多组一维数据组合就是二维数据
- 数据库表格和Excel表格是最常见的二维数据
- 嵌套的列表
- 二维数组
- DataFrame表格形式
三维或者更高维的数据，可用数组来表示
- 3维数据使用三层嵌套列表
- 三维数组
数组也可以表示一维数据、二维数据、对应的就是一维数组、二维数组
- 大数据的开发流程一般包括：数据收集、数据存储、数据分析和数据可视化
- 结果数据一般都是结构化的二维数据、在对其进行数据可视化展现

2）Numpy

具有一个强大的N维数组对象ndarray
广播函数功能
具有线性代数、博立叶变换、随机数生成等功能
是Scipy、Pandas等数据处理或科学计算库的基础
能够整合C/C++/Fortran的代码

Numpy使用array()提供数组的类型ndarray、Numpy的ndarray类型与python内置的list类型比较

数组对象是一维数据更像单个数据，可以不使用for循环进行元素遍历计算
Numpy一堆数据对象做了优化，计算速度更快，效率更高
科学计算中，一维数组中的元素类型往往相同
数组对象采用相同的数据类型，有助于节省运算和存储空间

# 用列表存储数据，并计算这组数据的平方
a = [1,2,3,4]
c = []
for i in a:
    c.append(i**2)
print(c)

# 用ndarray类型来存储，计算显然更加加单
# ndarray具有广播功能
import numpy as np
a = np.array([1,2,3,4])
a**2

# Python原生数据类型与numpy数组性能对比
def add(n):
    a = []
    b = []
    c = []
    for i in range(n):
        a.append(i ** 2)
        b.append(i + 3)
        c.append(a[i] + b[i])
    return c

def np_add(n):
    a = np.arange(n) ** 2
    b = np.arange(n) + 3
    c = a + b
    return c

N = 1000000
# 比较性能，使用“魔法函数” timeit
%timeit add(N)
%timeit np_add(N)
# 使用numpy运行时间是使用列表的70分之一

2、ndarray的创建和操作

ndarray是一个多维数组对象，由两部分构成

实际的数据
描述这些数据的元数据，即数据维度和数据类型等

同构

所有元素的类型一般都是相同的

a = np.array([[1,'a', 3], [4,'v', 6]])
print(type(a))
a

1）ndarray的基本属性

ndarray对象的属性

一对象名称.属性名称（）

array([['1', 'a', '3'],
       ['4', 'v', '6']], dtype='<U11')

属性	含义	结果	案例
a.shape	数据维度	(2, 3)	2行3列的二维数组
a.size	元素个数	6	6个元素
a.ndim	数组的维度	2	2维数组
a.dtype	元素的数据类型	dtype(‘int32’)	dtype(‘int32’)
a.itemsize	每个元素的大小以字节为单位	4	int32为四个字节

2）ndarray的元素类型

创建ndarray数组时可指定元素的数据类型

所支持的数据类型包括整数、浮点数、复数、布尔值、字符串或是普通的Python对象(object)

np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float32)

array_01 = np.array([[1, 2, 3], [4, 5, 6]])
array_01.dtype

数据类型	类型说明	说明
int_		默认整形
intc		等价于long的整形
int8	i1	字节整形，1个字节，范围: [-128, 127]
int16	i2	整形，2个字节，范围:[-32768, 32767]
int32	i3	整形，4个字节，范围:[-2^31, 2^31 - 1]
int64	i4	整形，8个字节，范围:[-2^63, 2^63 - 1]
uint8	u1	无符号整形，1个字节，范围:[0, 255]
uint16	u2	无符号整形，2个字节，范围:[0, 65535]
uint32	u3	无符号整形，1个字节，范围:[0, 2^32 - 1]
uint64	u4	无符号整形，1个字节，范围:[0, 2^64 - 1]
bool_		以一个字节形成存储的布尔值（True或是False）
float_		float64简写形式
float16	f2	半精度浮点型(2字节): 1符号位 + 5位指数 + 10位的小数部分
float32	f4或f	单精度浮点型(4字节): 1符号位 + 8位指数 + 23位小数部分
float64	f8或d	双精度浮点型(8字节): 1符号位 + 11位指数 + 52位的小数部分
complex_	c16	complex128的简写形式
complex64	c8	复数，由两个32位的浮点数来表示
complex128	c16	复数，由两个64位的浮点数来表示
object	O	Python对象类型
String_	S	固定长度的字符串类型(每个字符1个字节)，比如: 要创建一个长度为8的字符串，应使用S8
Unicode_	U	固定长度的unicode类型的字符串(每个字符占用字节数由平台决定)，长度定义类似String_类型

Python内建数据类型仅支持整数、浮点数和复数3种类型

对元素类型进行精确定义，有助于Numpy合理使用存储空间并优化性能。

在科学计算和数据分析领域设计数据类型较多，对存储和性能都有较高要求，并可以应对较大的数据应用场景。

非同质的ndarray对象

非同质ndarray元素为对象类型
ndarray数组可以由非同质对象构成
非同质的ndarray对象的元素长度不同
非同质ndarray对象无法有效发挥NumPy优势，应该尽量避免使用

3）ndarray的创建

使用Python的列表、元组等类型创建ndarray数组

# 从列表创建
np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float32)

# 从元组创建
np.array([(1, 2), (2, 3)])

# 从列表和元组创建
np.array([[1, 2, 3, 4], (4, 5, 6, 7)])

使用Numpy中的函数创建ndarray数组

# 类似range()函数，返回ndarray类型，元素从0到n - 1
np.arange(5)

# 根据shape生成一个全1数组，shape是元组类型
np.ones((3, 4))

# 根据shape生成一个全0数组，shape是元组类型
np.zeros((2, 3 ,4))

# 根据shape生成一个数组，每个元素都是val
np.full((2, 3), 99)

# 创建一个正方的n*n单位矩阵，对角线为1，其余为0
np.eye(5)

# 根据已有数组，生成一个维度相同的新数组
print('array_01:\n', array_01)
# 根据数组array_01的形状生成一个全1数组
print('np.ones_like:\n', np.ones_like(array_01))
# 根据数组array_01的形状生成一个全0数组
print('np.zeros_like:\n', np.zeros_like(array_01))
# 根据数组array_01的形状生成一个数组，每个元素值都是val
print('np.full_like:\n', np.full_like(array_01, 99))

# 根据起止数据等间距地填充数据，形成数组
np.linspace(1, 10, 10)

4）ndarray的变换

维度变换

# 创建一个新的数组
a = np.linspace(1, 12, 12, dtype=np.int32)
# ndarray数组的维度变换
# 不改变数组元素，返回一个shape形状的数组，原数组a不变
b = a.reshape(3, 4)
print('a:\n', a)
print('b:\n', b)

# 改变数组的shape，且修改原数据
a.resize(3, 4)
a

# 将数组n个维度中两个维度进行调换
a.swapaxes(1, 0)

# 把数组的维度降低，返回折叠后的一维数组，原数组不变
a.flatten()

元素类型变换

# 创建一个新的数组
b = np.linspace(1, 9, 9)
b.resize(3, 3)
print('b:\n', b)
print('b.dtype:\n', b.dtype)
d = b.astype(np.int16)
print('d:\n', d)

数组转换为列表

print('b:\n', b)
# 转换为list类型
b.tolist()

5）ndarray的操作

索引：获取数组中特定位置的元素

c = np.linspace(1, 24, 24, dtype=np.int)
c.resize(2, 3, 4)
print('c:\n', c)
print('c[0]:\n', c[0])
print('c[0][0]:\n', c[0][0])
# 多维数组索引方式一
print('c[0][0][0]:\n', c[0][0][0])
# 多维数组索引方式二
print('c[0, 0, 0]:\n', c[0, 0, 0])

切片：获取数组元素子集

# 切片获取元素子集
print('c:\n', c)
print('c[0][1:3][1:3]:\n', c[0][1:3][1:3])
print('c[0, 1:3, 1:3]:\n', c[0, 1:3, 1:3])
# 获取步长跳跃切片
print('c[0, 1, ::2]:\n', c[0, 1, ::2])

3、ndarray数组的运算

1）ndarray与标量运算

乘法

# 乘法
a = np.arange(1, 10).reshape(3, 3)
b = [1, 2, 4]
print('a:\n', a)
print('a*10:\n', a*10)
print('b*3:\n', b*3)

平方
```
# 平方
a**2
```
减法
```
# 减法
a - 9
```

逻辑运算、比较大小、过滤元素

# 数组的重要特性，过滤值
print('a > 5:\n', a > 5)
# 使用多条条件过滤，注意运算优先级
print('a[(a > 5) & (a < 8)]:\n', a[(a > 5) & (a < 8)])

2）数组元素运算函数

函数名称	函数功能
np.abs(b)	计算各元素的绝对值
np.sqrt(b)	计算各元素的平方根
np.square(b)	计算各元素的平方
np.log(b)、np.log10(b)、np.log2(b)	计算数组各元素的自然对数、10底对数和2底对数
np.ceil©	计算数组各元素的ceiling值，向上取整
np.floor©	计算数组各元素的floor值，向下取整
np.rint©	计算数组各元素的四舍五入值
np.modf©	将数组个元素的小树和整数部分以两个独立数组形式返回
np.cos©	三角函数

3）数组间的运算

维度相同的数组

加：a + b
减：a - b
乘：a * b
除：a / b
逻辑运算：a > b

4）Numpy统计函数

数组内的所有元素进行统计，通常是返回一个数值

np.sum()求和

# 求每列的和
print('np.sum(a, axis=0):\n', np.sum(a, axis=0))
# 求每行的和
print('np.sum(a, axis=1):\n', np.sum(a, axis=1))
# 求所有元素的和
print('np.sum(a):\n', np.sum(a))

函数名称	函数功能
np.min(a)	求取最小值
np.max(a)	求取最大值
np.median(a)	计算中间值
np.average(a)	计算加权平均值
np.mean(a)	计算算术平均值
np.std(a)	计算标准差
np.var(a)	计算方差

4、实验操作

实验环境

python 3.7、pyecharts 1.7.1、jupyter notebook 6.0.3

阶梯图

from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_NOTEBOOK

import pyecharts.options as opts
from pyecharts.globals import ThemeType
from pyecharts.charts import Line
line = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(['1995','1996','1997','1998','1999','2000','2001','2002','2003','2004','2005','2006','2007','2008','2009'])
    .add_yaxis('邮票阶梯', [0.32,0.32,0.32,0.32,0.33,0.33,0.34,0.37,0.37,0.37,0.37,0.39,0.41,0.42,0.44], is_step=True)
    .set_global_opts(title_opts=opts.TitleOpts(title="美国邮票阶梯图"), )
)
line.render_notebook()

美国邮票阶梯图

折线图

import csv
import matplotlib.pyplot as plt
filename = "data/world-population.csv"
datax = []
datay = []
with open(filename) as f:
    reader = csv.reader(f)
    for datarow in reader:
        if reader.line_num != 1:
#             print(reader.line_num,datarow)
            datax.append(datarow[0])
            datay.append(datarow[1])
plt.plot(datax,datay)
plt.show()

拟合曲线

import numpy as np
import sys
filename = "data/unemployment-rate-1948-2010.csv"
xa = []
ya = []
try:
    with open(filename) as f:
        reader = csv.reader(f)
        for datarow in reader:
            if reader.line_num != 1:
                ya.append(float(datarow[3]))
                xa.append(int(datarow[1]))
except csv.Error:
    print("Error reading csv file")
    sys.exit(-1)
plt.figure(figsize=(15, 9.27))
plt.scatter(xa[:], ya[:], s=10,c='g',marker='o',alpha=0.5)
poly = np.polyfit(xa, ya, deg = 3)
plt.plot(xa, np.polyval(poly, xa))
plt.show()

散点图

filename = "data/flowingdata_subscribers.csv"
datay = []
with open(filename) as f:
    reader = csv.reader(f)
    for datarow in reader:
        if reader.line_num != 1:
            datay.append(datarow[1])
xa = list(range(1, len(datay) + 1))
plt.figure(figsize=(15, 9.27))
plt.scatter(xa, datay, s=50, c='r', marker='o', alpha=0.5)
plt.show()

柱状图

from pyecharts.charts import Bar

filename = "data/hot-dog-contest-winners.csv"
datax = []
datay = []
with open(filename) as f:
    reader = csv.reader(f)
    for datarow in reader:
        if reader.line_num != 1:
            datay.append(datarow[2])
            datax.append(datarow[0])
bar = (
    Bar(init_opts = opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(datax)
    .add_yaxis("Dogs eaten", datay)
    .set_global_opts(title_opts=opts.TitleOpts(title="柱状图示例"))
)
bar.render_notebook()

柱状图数据堆叠

filename = "data/hot-dog-places.csv"
datax = []
datay = []
with open(filename) as f:
    reader = csv.reader(f)
    for datarow in reader:
        datax.append(datarow)

x = datax[0]
y1 = datax[1]
y2 = datax[2]
y3 = datax[3]
bar = (
    Bar(init_opts = opts.InitOpts(theme = ThemeType.DARK))
    .add_xaxis(x)
    .add_yaxis("A", y1)
    .add_yaxis("B", y2)
    .add_yaxis("C", y3)
    .set_global_opts(title_opts=opts.TitleOpts(title = "柱状图数据堆叠示例"))
)
bar.render_notebook()

masonsxu

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
数据可视化（pyecharts 1.7.1）学习笔记——系列笔记（3）

三、Python数据分析基础库Numpy1、数组、Numpy1）数组一维的数据称为向量集合集合中的元素不要求是相同的类型元组元组中的元素也不要求是相同的类型列表列表中的元素可以是不同的类型一维数组数据会将输入的数据转换为一致的数据类型数组计算的速度较其他类型都快二维的数据称为矩阵矩阵多组一维数据组合就是二维数据数据库表格和Exc...
复制链接

扫一扫