用python进行数据分析（入门学习）

可口可乐没有乐

已于 2024-01-10 14:37:21 修改

阅读量2.6k

点赞数 8

文章标签： python 数据分析学习

于 2023-03-17 11:52:01 首次发布

本文链接：https://blog.csdn.net/m0_59236602/article/details/129616878

版权

做笔记啦！！！这几天突击了一下使用python进行数据分析，觉得还是梳理一遍比较好，不然学得快忘得也快[捂脸] 所以，今天这篇文章就主要介绍一下用python进行数据分析中常用到的三个库：numpy、pandas、matplotlib的入门使用。上课！

什么叫数据分析？

理解1：数据分析就是把隐藏在杂乱数据背后的有效信息提炼出来，总结所研究对象的内在规律。

利用数据分析可以帮助把数据的价值最大化，例如：

分析用户的消费行为

通过数据分析研究用户的消费金额、消费品类、消费时间、消费频率等等，可以帮助企业去制定一个合适的促销方案；分析促销方案的最佳实践和频次；计算各类客户的活跃度；分析各类产品的回购力度；分析产品的目标销售对象等等。

分析广告的点击率

通过数据分析可以确定出广告投放的最佳时间；制订广告方案定向投放目标人群等等。

理解2：数据分析就是利用适当的方法对大量收集来的数据进行分析，帮助人们做出判断，从而采取适当的行动。

下面进入正题，先简单介绍一下利用python进行数据分析的事先工具准备。

工具准备

——anaconda：集成环境，集成了数据分析和机器学习中所需要的全部环境。

anaconda中已经帮我们准备好了python以及数据分析常使用到的numpy、pandas、matplotlib库，也就是说，我们只需要下载安装好anaconda这个工具，其他的都不用我们操心啦！

相比起使用python搭配pycharm使用，每次需要使用到一个新库都要手动下载配置，要是在没网的情况下就更加麻烦了，所以就数据分析而言，还是使用anaconda比较方便。

在anaconda里面，还自动为我们安装了jupyter这个工具，这是一个基于浏览器的可视化开发工具，可以创建ipynb文件，做到代码随写随运行，还能很方便地在里面使用markdown做笔记，真的非常好用！

数据分析三剑客之numpy模块

介绍：numpy是python语言中做科学计算的基础库，重在数值计算，多用于在大型、多维数组上执行的数值运算。（可以把它理解为一个进行数值计算的容器）

一、numpy的创建

首先在窗口导入numpy库：

import numpy as np

使用np.array() 创建
使用plt 创建
使用np 的routines 函数创建

arr = np.array([1,2,3])

注：array数组——其中存储的数据类型必须是统一的，否则会进行强行转换。转换优先级：字符串>浮点型>整数，即如果遇到其中一个是字符串类型的，则优先将另外的数据转换为字符串类型。

再创建一个随机数组：

arr = np.random.randint(0,100,size=(5,3)) # 返回一个5行3列、元素在0-100之间的随机数组
————显示结果———————
array([[38, 69, 54],
       [43, 87, 75],
       [75, 39, 23],
       [67, 80, 14],
       [54, 84, 84]])

二、numpy的常用属性

shape
ndim
size
dtype
reshape

arr.shape # 返回数组的形状
————显示结果——————
(5, 3)

arr.ndim # 返回数组的维度
————显示结果————
2

arr.size # 返回数组元素的个数
————显示结果————
15

arr.dtype # 返回数组的数据元素
————显示结果————
dtype('int32')

使用type()函数可查看数据的返回类型：

type(arr)
————显示结果————
numpy.ndarray

创建array数组时可以指定数组元素类型：

arr = np.array([1,2,3],dtype='int64')

arr.dtype = 'uint8' # 将数组元素修改为uint8类型

三、numpy的索引和切片操作

先创建一个随机数组：

arr = np.random.randint(1,100,size=(5,6)) # 创建一个5行6列的随机数组
————显示结果————
array([[98, 62, 31, 14,  1, 54],
       [17, 49, 33, 36, 17, 89],
       [ 7, 29, 87, 36, 54, 31],
       [ 5, 41, 89, 39, 47, 67],
       [72, 30, 55, 41, 71, 29]])

array数组的取数：

arr[1] # 取出numpy数组中的下标为1的行数据（python中行标从0开始计）
————显示结果————
array([17, 49, 33, 36, 17, 89])

arr[[1,3,4]] # 取出多行数据
————显示结果————
array([[17, 49, 33, 36, 17, 89],
       [ 5, 41, 89, 39, 47, 67],
       [72, 30, 55, 41, 71, 29]])

对数组进行任意行或列的切片操作：

a1 = arr[0:2] # 切出数组的前两行数据
a2 = arr[:,0:2] # 切出数组的前两列数据
————显示结果————
 array([[98, 62, 31, 14,  1, 54],
        [17, 49, 33, 36, 17, 89]])

 array([[98, 62],
        [17, 49],
        [ 7, 29],
        [ 5, 41],
        [72, 30]])

a3 = arr[0:2,0:2] # 切出前两行的前两列
————显示结果————
array([[98, 62],
       [17, 49]])

对数组数据进行翻转：

arr[::-1] # 将数组的行倒置
arr[:,::-1] # 将数组的列倒置
————显示结果————
array([[72, 30, 55, 41, 71, 29],
        [ 5, 41, 89, 39, 47, 67],
        [ 7, 29, 87, 36, 54, 31],
        [17, 49, 33, 36, 17, 89],
        [98, 62, 31, 14,  1, 54]]))
array([[54,  1, 14, 31, 62, 98],
       [89, 17, 36, 33, 49, 17],
       [31, 54, 36, 87, 29,  7],
       [67, 47, 39, 89, 41,  5],
       [29, 71, 41, 55, 30, 72]])

arr[::-1,::-1] # 将所有的元素倒置
————显示结果————
array([[29, 71, 41, 55, 30, 72],
       [67, 47, 39, 89, 41,  5],
       [31, 54, 36, 87, 29,  7],
       [89, 17, 36, 33, 49, 17],
       [54,  1, 14, 31, 62, 98]])

使用reshape()函数可以对数组维度变形：

arr1 = arr.reshape(30) # 将二维数组变形成一维数组
————显示结果————
array([98, 62, 31, 14,  1, 54, 17, 49, 33, 36, 17, 89,  7, 29, 87, 36, 54,
       31,  5, 41, 89, 39, 47, 67, 72, 30, 55, 41, 71, 29])

arr2 = arr1.reshape(3,10) # 将二维数组变形为二维数组
————显示结果————
array([[98, 62, 31, 14,  1, 54, 17, 49, 33, 36],
       [17, 89,  7, 29, 87, 36, 54, 31,  5, 41],
       [89, 39, 47, 67, 72, 30, 55, 41, 71, 29]])

四、numpy的级联操作

将多个numpy数组进行横向或纵向的拼接
axis轴向的表示：在numpy的大多数函数中，axis=0表示纵向操作；axis=1表示横向操作。但是，在drop类函数中，二者相反。

注：拼接的两个数组必须维度和行列数一致。

np.concatenate((arr,arr),axis=0)
————显示结果————
array([[98, 62, 31, 14,  1, 54],
       [17, 49, 33, 36, 17, 89],
       [ 7, 29, 87, 36, 54, 31],
       [ 5, 41, 89, 39, 47, 67],
       [72, 30, 55, 41, 71, 29],
       [98, 62, 31, 14,  1, 54],
       [17, 49, 33, 36, 17, 89],
       [ 7, 29, 87, 36, 54, 31],
       [ 5, 41, 89, 39, 47, 67],
       [72, 30, 55, 41, 71, 29]])

np.concatenate((arr,arr),axis=1)
————显示结果————
array([[98, 62, 31, 14,  1, 54, 98, 62, 31, 14,  1, 54],
       [17, 49, 33, 36, 17, 89, 17, 49, 33, 36, 17, 89],
       [ 7, 29, 87, 36, 54, 31,  7, 29, 87, 36, 54, 31],
       [ 5, 41, 89, 39, 47, 67,  5, 41, 89, 39, 47, 67],
       [72, 30, 55, 41, 71, 29, 72, 30, 55, 41, 71, 29]])

五、常用的聚合函数

sum, max, min, mean

arr.sum() # 求出数组元素之和
————显示结果————
1331

arr.sum(axis=1) # 求出数组每一行元素之和；如果axis=0，则求出数组每一列元素之和
————显示结果————
array([260, 241, 244, 288, 298])

# 其他聚合函数的使用方法大致相同

六、常用的数学函数

numpy提供了标准的三角函数：sin(), cos(), tan()
numpy.around(a, decimals)函数返回指定数字的四舍五入值

参数说明：a-数组；decimal-舍入的小数位数，默认值为0，如果为负，整数将四舍五入到小数点左侧的位置。

np.around(3.14,1)
————显示结果————
3.1

np.around(3.14,-1)
————显示结果————
0.0

np.around(6.34,-1)
————显示结果————
10.0

七、常用的统计函数

numpy.amin() 和numpy.amax()，用于计算数组中的元素沿指定轴的最小、最大值
numpy.ptp() 函数计算数组中元素最大值与最小值的差（可指定轴向）
numpy.median() 函数用于计算数组中元素的中位数
标准差std()
方差var()

np.ptp([[1,2,3],[6,9,23]],axis=0) # 返回数组中每一列元素的极差
np.ptp([[1,2,3],[6,9,23]],axis=1) # 返回数组中每一行元素的极差
————显示结果————
array([ 5, 7, 20])
array([ 2, 17])

arr[1].std() # 返回数组第一行的标准差
arr[1].var() # 返回数组第一行的方差

八、矩阵相关的函数

numpy中包含了一个矩阵库numpy.matlib，该模块中的函数返回的是一个矩阵，而不是ndarray对象
numpy.matlib.identity() 函数返回给定大小的单位矩阵
行列转置
两个矩阵相乘

arr.T # xx.T 将xx数组行列转置

a1 = np.array([[2,1],[4,3]])
a2 = np.array([[1,2],[1,0]])
np.dot(a1,a2) # 将a1和a2两个矩阵相乘
————结果显示————
array([[3, 4],
       [7, 8]])

数据分析三剑客之pandas模块

为什么要学习pandas？——numpy能够帮助我们处理的是数值型的数据，pandas可以帮我们很好的处理除了数值型的其他数据。

在pandas中常用的两个类：Series、DataFrame

一、Series的用法

Series是一种类似于一维数组的对象，由下面两个部分组成：

values- 一组数据（ndarray类型）
index- 相关的数据索引标签

1、Series的创建

由列表或numpy数组创建
由字典创建

首先导入模块：

from pandas import Series
s = Series(data=[1,2,3,'four']) # 创建一个Series类的数组
————显示结果————
0       1
1       2
2       3
3    four
dtype: object

可以为Series类的数组指定显式索引，增强Series的可读性：

s = Series(data=[1,2,3,'four'],index=['a','b','c','d']) # 指定行索引为'a','b','c','d'
————结果显示————
a       1
b       2
c       3
d    four
dtype: object

由字典创建一个Series类的数组：

dic = {'语文':100,
       '数学':99,
       '英语':89}
s1 = Series(data=dic) # 字典里面的key成为Series对象里的显式行索引
————结果显示————
语文    100
数学     99
英语     89
dtype: int64

s1.语文 # 返回显式索引所对应的数值
————结果显示————
100

s1[0:2] # 取s1中的前两行数据
————结果显示————
语文    100
数学     99
dtype: int64

2、Series的常用属性

shape
size
index
values
dtype

s1.shape # 返回数组形状
————结果显示————
(3,)

s1.size # 返回元素个数
————结果显示————
3

s1.index # 返回数组索引
————结果显示————
Index(['语文', '数学', '英语'], dtype='object')

s1.values # 返回元素
————结果显示————
array([100,  99,  89], dtype=int64)

s1.dtype # 返回元素类型
————结果显示————
dtype('int64')

注：Series中只能存储同类型的元素。

3、Series的常用方法

head(), tail()
unique()
isnull(), notnull()
add(), sub(), mul(), div()

s2 = Series(data=np.random.randint(60,100,size=(10)))
s2.head(4) # 显示s2数组中的前4个数据，如果不指定个数，则默认为前5个
————结果显示————
0    98
1    97
2    83
3    66
dtype: int32

s2.tail(4) # 显示数组中的后4个数据

s2.unique() # 表示数据去重

s2.isnull() # 用于判断每个元素是否为空，是返回true，否返回false
————结果显示————
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
dtype: bool

4、Series的算术运算

法则：索引一致的元素进行算术运算，不一致则补空

d1 = Series(data=[1,2,3],index=['a','b','c'])
d2 = Series(data=[1,2,3],index=['a','d','c'])
d = d1 + d2
————结果显示————
a    2.0
b    NaN
c    6.0
d    NaN
dtype: float64

二、DataFrame的用法

介绍：DataFrame是一个表格型的数据结构。DataFrame由按一定顺序排列的多列数据组成，将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

index - 行索引
columns - 列索引
values - 值

1、DataFrame的创建

ndarray创建
字典创建

首先从pandas库导入DataFrame：

from pandas import DataFrame
df = DataFrame(data=[[1,2,3],[4,5,6]]) # 用ndarray的形式创建
df = DataFrame(data=np.random.randint(0,100,size=(6,4)))
dic = {
       'name':['zhangsan','lisi','wangwu'],
       'salary':[100,2000,3000]}
df = DataFrame(data=dic) # 用字典的形式创建
————结果显示————
	name	salary
0	zhangsan 100
1	lisi	2000
2	wangwu	3000

可以为DataFrame表格指定行索引：

df = DataFrame(data=dic,index=['a','b','c'])
————结果显示————
	name	salary
a	zhangsan 100
b	lisi	2000
c	wang	3000
# 指定列索引时同理，添加columns=['a','b','c','d']

2、DataFrame的属性

values
columns
index
shape

df.values # 返回表格元素
————结果显示————
array([['zhangsan', 100],
       ['lisi', 2000],
       ['wang', 3000]], dtype=object)

df.columns # 返回表格的列
————结果显示————
Index(['name', 'salary'], dtype='object')

df.index # 返回表格的行索引
————结果显示————
Index(['a', 'b', 'c'], dtype='object')

df.shape # 返回表格的形状
————结果显示————
(3, 2)

3、DataFrame的索引操作

取列元素
取行元素
取元素
iloc - 隐式索引；loc - 显式索引

ddf = DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=['a','b','c','d'])
————结果显示————
	a	b	c	d
0	70	77	97	88
1	67	67	80	60
2	95	69	79	99
3	77	84	83	68
4	94	85	70	68
5	64	78	86	86
6	83	62	98	70
7	92	67	60	65

ddf['a'] # 取指定单列值，如果ddf有显式的索引，通过索引机制取行或取列的时候只可以使用显示索引
————结果显示————
0    70
1    67
2    95
3    77
4    94
5    64
6    83
7    92
Name: a, dtype: int32

ddf[['a','c']] # 取指定的多列值
————结果显示————
	a	c
0	70	97
1	67	80
2	95	79
3	77	83
4	94	70
5	64	86
6	83	98
7	92	60

ddf.iloc[0] # 通过隐式索引取指定单行值
————结果显示————
a    70
b    77
c    97
d    88
Name: 0, dtype: int32

ddf.iloc[[0,3,5]] # 取多行值
————结果显示————
	a	b	c	d
0	70	77	97	88
3	77	84	83	68
5	64	78	86	86

ddf.loc[[1,3,5],'b'] # 取指定位置的元素值
————结果显示————
1    67
3    84
5    78
Name: b, dtype: int32

4、DataFrame的切片操作

对行进行切片
对列进行切片

ddf[0:2] # 切前两行
————结果显示————
	a	b	c	d
0	70	77	97	88
1	67	67	80	60

ddf.iloc[:,0:2] # 切前两列
————结果显示————
a	b
0	70	77
1	67	67
2	95	69
3	77	84
4	94	85
5	64	78
6	83	62
7	92	67

5、DataFrame的运算

同Series一样的规则

三、其他

转换数据类型为时间序列类型
设置某列作为源数据的行索引

首先导入pandas库：

import pandas as pd
dic = {
       'time':['2020-10-10','2020-11-23','2021-02-12'],
       'temp':[33,31,30]}
ddf = DataFrame(data=dic) # 创建一个DataFrame表格
————结果显示————
	time	temp
0	2020-10-10	33
1	2020-11-23	31
2	2021-02-12	30

ddf['time'].dtype # 查看time列的类型
————结果显示————
dtype('O')

pd.to_datetime(ddf['time]) # 将time列的数据类型转换为时间序列类型
————结果显示————
dtype('<M8[ns]')

ddf.set_index('time',inplace=True) # 将time列作为源数据的行索引
————结果显示————
	temp
time	
2020-10-10	33
2020-11-23	31
2021-02-12	30

至于matplotlib，其实我还没学......先记到这吧，之后我学完了再上来更新~

Python经验分享

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

Python学习路线

这里把Python常用的技术点做了整理，有各个领域的知识点汇总，可以按照上面的知识点找对应的学习资源。
在这里插入图片描述

学习软件

Python常用的开发软件，会给大家节省很多时间。
在这里插入图片描述

学习视频

编程学习一定要多多看视频，书籍和视频结合起来学习才能事半功倍。
在这里插入图片描述

100道练习题

在这里插入图片描述

实战案例

光学理论是没用的，学习编程切忌纸上谈兵，一定要动手实操，将自己学到的知识运用到实际当中。
在这里插入图片描述
最后祝大家天天进步！！

上面这份完整版的Python全套学习资料已经上传至CSDN官方，朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

可口可乐没有乐

关注

8
点赞
踩
123

收藏

觉得还不错? 一键收藏
1
评论
用python进行数据分析（入门学习）

做笔记啦！！！这几天突击了一下使用python进行数据分析，觉得还是梳理一遍比较好，不然学得快忘得也快[捂脸] 所以，今天这篇文章就主要介绍一下用python进行数据分析中常用到的三个库：numpy、pandas、matplotlib的入门使用。上课！利用数据分析可以帮助把数据的价值最大化，例如：通过数据分析研究用户的消费金额、消费品类、消费时间、消费频率等等，可以帮助企业去制定一个合适的促销方案；分析促销方案的最佳实践和频次；计算各类客户的活跃度；分析各类产品的回购力度；分析产品的目标销售对象等等。通过数
复制链接

扫一扫