Python数据分析第一章数据分析的概述

最新推荐文章于 2024-07-27 12:20:46 发布

White乄joker

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量972

点赞数

分类专栏： python 文章标签： python 数据分析 numpy

本文链接：https://blog.csdn.net/qq_57289939/article/details/127479629

版权

python 专栏收录该内容

30 篇文章 7 订阅

订阅专栏

1. Matplotlib 模块/ Seaborm 模块

2. Scipy 模块

3. Stasmodels 模块

4.Scikit - Learn模块

第一章数据分析的概述

1.数据分析的概述

数据 --- 研究的对象

分析 --- 对对象的动作

1.Python在数据分析方面的优势

Python 不受数据规模的约束，能够处理大规模数据
sklearn库提供了丰富的数据挖掘和人工智能方法
能够显著提高工作效率
能够绘制各种前言的数据图表

2.数据分析流程

数据采集
数据整理和存储
数据分析和可视化
数据报表和总结

3.数据分析层次

描述性分析 --- 发生了什么
诊断性分析 --- 为什么会发生
预测性分析 --- 可能会发生什么
处方性分析 --- 该做些什么

4.数据分析常见应用场景

电商平台
银行金融机构
房产交易平台
工业互联网

2. Python数据分析模块

1. Numpy 模块

导入模块：pip install numpy

1.定义：

是Python语言的一个扩展程序库，支持大量的多位数组与矩阵计算，此外也正对数组运算提供大量的数学函数。

2.格式：

import numpy as np
print(np.__version__)

结果：
1.23.3

支持广播功能函数，线性代数运算，傅里叶变换等功能。

3.生成数组

其N维数组对象为 ndarray --- 与列表形式上相似，但内部元素必须相同类型 --- 生成ndarray时array方法 --- numpy.array

import numpy as np

arr0 = np.array([1, 3, 5, 7])
print(arr0)
arr1 = np.array([[1, 3], [5, 7]])
print(arr1)

结果：
[[1 3]
 [5 7]]

使用类型：np.zeros((m,n)) --- m 行 n 列的0值数组

np.ones((m,n)) --- m 行 n 列的填充值为1的数组

np.eye(m,n) --- m 行 n 列的对角线位置填充为1的矩阵

使用random方法生成随机数组

import numpy as np

print(np.zeros((2, 3)))
print(np.ones((3, 2)))
print(np.eye(3, 3))
print(np.random.rand(3, 3))
print(np.random.randint(1, 10, (3, 3)))  # 从1-10中随机生成3*3的数组

结果：
[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[0.59603956 0.6627258  0.91078966]
 [0.07946956 0.16442522 0.13887031]
 [0.81429468 0.05605028 0.01502452]]
[[3 7 4]
 [2 3 8]
 [6 7 2]]

4.数组统计方法

可以快速实现查找数组中的最小值、最大值、求解平均数、中位数、标准差等功能

import numpy as np

arr4 = np.random.randint(1, 10, (3, 3))
print("生成数组：\n", arr4)
print('数组中最大的值',np.max(arr4))  # 求解数组中最大的值
print('数组中最小的值',np.min(arr4))  # 求解数组中最小的值
print("数组行方向的最小值",np.amin(arr4, 0))  # 求解数组行方向的最小值
print("数组列方向的最小值",np.amin(arr4, 1))  # 求解数组列方向的最小值
print("数组中的中位数",np.median(arr4))  # 求解数组中的中位数

结果：
生成数组：
 [[2 3 8]
 [6 3 6]
 [8 4 5]]
数组中最大的值 8
数组中最小的值 2
数组行方向的最小值 [2 3 5]
数组列方向的最小值 [2 3 4]
数组中的中位数 5.0

2. Pandas 模块

导入模块：pip install pandas

1.定义

基于numpy构建的数据分析库，具有比bumpy更高级的数据结构和分析工具 --- 如 Series类型、DataFrame类型 --- 通常作为分析工具对数据进行处理和分析

2.格式

import pandas as pd
print(pd.__version__)

3. Series 结构

定义 --- 类似于一维数组的数据结构，有一组数据和数据的索引构成

格式: 左边第一列表示索引，右边表示数据

import pandas as pd

print(pd.Series(data=[1, 2, 3, 4]))
print(pd.Series(data=[1, 2, 3, 4], index=['a', 'b', 'c', 'd']))
print(pd.Series(data=['aa', 'bb', 'cc'], index=[10, 20, 30]))

结果：
0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64
10    aa
20    bb
30    cc
dtype: object

describe 方法 --- 对Series数组的数值进行分析

import numpy as np
import pandas as pd

data = np.random.randint(1, 100, 10)  # 随机生成范围在1-100之间的十个整数的一维数组
print(data)
print()
a = pd.Series(data=data)  # 将随机生成的数组使用pandas模块中的Series数据结构的赋给a
print(a.describe())  # 使用describe方法对数据a进行分析

结果：
[25 99 77 55 35 97  3 91 25  7]

count    10.000000
mean     51.400000
std      37.354756
min       3.000000
25%      25.000000
50%      45.000000
75%      87.500000
max      99.000000
dtype: float64

4. DateFram 结构

定义 --- 由多个S日二十组成，可以类比二维数组或矩阵，但必须同时具有行索引和列索引。

格式 --- pd.DataFrame(data,index,colums)

data --- 数据

index --- 行索引 --- 可以不指定，则为0开始

columns --- 列索引 --- 可以不指定，则为0开始

例

import numpy as np

data = np.random.randint(1, 100, (3, 4))
print(data)
import pandas as pd

df = pd.DataFrame(data, columns=['a', 'b', 'c', 'd'])
print(df)

结果：
[[46  8 32 47]
 [79 12  7 19]
 [46 33 50 23]]
    a   b   c   d
0  46   8  32  47
1  79  12   7  19
2  46  33  50  23

可以调用其 --- shape，info，index，columns，values等方法返回其对应的属性

info 方法 --- 可以获取其信息概述，包括行索引、列索引、费控数据个数、数据类型信息

index、columns、values属性 --- 可以放回当前df对象的行索引、列索引、数组元素

import numpy as np

data = np.random.randint(1, 100, (3, 4))
print(data)
import pandas as pd

df = pd.DataFrame(data, columns=['a', 'b', 'c', 'd'])

print(df)  # 查看原始的df数据
结果：
    a   b   c   d
0  46  57  71  11
1  75  13  64  62
2   5  96  72  80

print('访问df的第一行数据：\n', df[0:1])  # 访问df的第一行数据，返回的是DataFrame数据对象
结果：
a   b   c   d
0  46  57  71  11

print('访问df列表为a的数据:\n', df.a)  # 访问df列表为a的数据，返回的是DataFrame数据对象
结果：
 0    46
1    75
2     5

print('访问df第二行，列名为a的数据:\n', df.at[1, 'a'])  # 访问df第二行，列名为a的数据
结果：
75
        
print('访问df第2-3行,第2-3行包围的数据:\n', df.iloc[1:3, 1:3])  # 访问df第2-3行,第2-3行包围的数据
结果：
     b   c
1  13  64
2  96  72

df['e'] = 10  # 添加列、索引为e、数值为10
print(df)
结果：
    a   b   c   d   e
0  46  57  71  11  10
1  75  13  64  62  10
2   5  96  72  80  10

df.loc[3] = 20  # 添加行,索引为3，将行的数值设置为20
print(df)
结果：
    a   b   c   d   e
0  46  57  71  11  10
1  75  13  64  62  10
2   5  96  72  80  10
3  20  20  20  20  20

df.at[2, 'c'] = 66  # 将索引为2的行和索引为c的列所包含的数据更改为66
print(df)
结果：
    a   b   c   d   e
0  46  57  71  11  10
1  75  13  64  62  10
2   5  96  66  80  10
3  20  20  20  20  20

df.drop(3, axis=0, inplace=True)  # 删除df数据中行索引为3的数据
print(df)
结果：
    a   b   c   d   e
0  46  57  71  11  10
1  75  13  64  62  10
2   5  96  66  80  10

df.drop('c', axis=1, inplace=True)  # 删除df数据中索引为c的数据
print(df)
结果：
    a   b   d   e
0  46  57  11  10
1  75  13  62  10
2   5  96  80  10

DataFrame提供的数据分析方法

方法	功能描述
head(n)/tail(n)	返回数据钱 / 后n杭机路，当不给定n时，默认前 / 后五行
describe( )	返回所有数值列的统计信息
max(axis=0)/min(axis=0)	默认获得列方向各列的最大 / 最小值，当axis的值设置为1时，获得各行的最大/最小值
mean(axis=0)/median(axis=0)	默认获得列方向各列的平均 / 中位数，当axis的值为1时，获得各行的平均 / 中位数
info( )	对所用数据进行信息简述
isnull( )	检测空值，返回一个元素类型为布尔值的DataFrame，当出现空值时返回Ture，否则返回False
dropna( )	删除集合中的空值
value_counts( )	查看某列中各值出现的次数
count( )	对符合条件的记录统计出现的次数
sort_values( )	对数据进行排序，默认为升序
sort_index( )	对索引进行排序，默认为升序
group_by( )	按给定的条件对数据进行分组统计