什么叫数据分析?
理解1:数据分析就是把隐藏在杂乱数据背后的有效信息提炼出来,总结所研究对象的内在规律。
利用数据分析可以帮助把数据的价值最大化,例如:
- 分析用户的消费行为
通过数据分析研究用户的消费金额、消费品类、消费时间、消费频率等等,可以帮助企业去制定一个合适的促销方案;分析促销方案的最佳实践和频次;计算各类客户的活跃度;分析各类产品的回购力度;分析产品的目标销售对象等等。
- 分析广告的点击率
通过数据分析可以确定出广告投放的最佳时间;制订广告方案定向投放目标人群等等。
理解2:数据分析就是利用适当的方法对大量收集来的数据进行分析,帮助人们做出判断,从而采取适当的行动。
下面进入正题,先简单介绍一下利用python进行数据分析的事先工具准备。
工具准备
——anaconda:集成环境,集成了数据分析和机器学习中所需要的全部环境。
anaconda中已经帮我们准备好了python以及数据分析常使用到的numpy、pandas、matplotlib库,也就是说,我们只需要下载安装好anaconda这个工具,其他的都不用我们操心啦!
相比起使用python搭配pycharm使用,每次需要使用到一个新库都要手动下载配置,要是在没网的情况下就更加麻烦了,所以就数据分析而言,还是使用anaconda比较方便。
在anaconda里面,还自动为我们安装了jupyter这个工具,这是一个基于浏览器的可视化开发工具,可以创建ipynb文件,做到代码随写随运行,还能很方便地在里面使用markdown做笔记,真的非常好用!
数据分析三剑客之numpy模块
介绍:numpy是python语言中做科学计算的基础库,重在数值计算,多用于在大型、多维数组上执行的数值运算。(可以把它理解为一个进行数值计算的容器)
一、numpy的创建
首先在窗口导入numpy库:
import numpy as np
- 使用np.array() 创建
- 使用plt 创建
- 使用np 的routines 函数创建
arr = np.array([1,2,3])
注:array数组——其中存储的数据类型必须是统一的,否则会进行强行转换。转换优先级:字符串>浮点型>整数,即如果遇到其中一个是字符串类型的,则优先将另外的数据转换为字符串类型。
再创建一个随机数组:
arr = np.random.randint(0,100,size=(5,3)) # 返回一个5行3列、元素在0-100之间的随机数组
————显示结果———————
array([[38, 69, 54],
[43, 87, 75],
[75, 39, 23],
[67, 80, 14],
[54, 84, 84]])
二、numpy的常用属性
- shape
- ndim
- size
- dtype
- reshape
arr.shape # 返回数组的形状
————显示结果——————
(5, 3)
arr.ndim # 返回数组的维度
————显示结果————
2
arr.size # 返回数组元素的个数
————显示结果————
15
arr.dtype # 返回数组的数据元素
————显示结果————
dtype('int32')
使用type()函数可查看数据的返回类型:
type(arr)
————显示结果————
numpy.ndarray
创建array数组时可以指定数组元素类型:
arr = np.array([1,2,3],dtype='int64')
arr.dtype = 'uint8' # 将数组元素修改为uint8类型
三、numpy的索引和切片操作
先创建一个随机数组:
arr = np.random.randint(1,100,size=(5,6)) # 创建一个5行6列的随机数组
————显示结果————
array([[98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89],
[ 7, 29, 87, 36, 54, 31],
[ 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29]])
array数组的取数:
arr[1] # 取出numpy数组中的下标为1的行数据(python中行标从0开始计)
————显示结果————
array([17, 49, 33, 36, 17, 89])
arr[[1,3,4]] # 取出多行数据
————显示结果————
array([[17, 49, 33, 36, 17, 89],
[ 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29]])
对数组进行任意行或列的切片操作:
a1 = arr[0:2] # 切出数组的前两行数据
a2 = arr[:,0:2] # 切出数组的前两列数据
————显示结果————
array([[98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89]])
array([[98, 62],
[17, 49],
[ 7, 29],
[ 5, 41],
[72, 30]])
a3 = arr[0:2,0:2] # 切出前两行的前两列
————显示结果————
array([[98, 62],
[17, 49]])
对数组数据进行翻转:
arr[::-1] # 将数组的行倒置
arr[:,::-1] # 将数组的列倒置
————显示结果————
array([[72, 30, 55, 41, 71, 29],
[ 5, 41, 89, 39, 47, 67],
[ 7, 29, 87, 36, 54, 31],
[17, 49, 33, 36, 17, 89],
[98, 62, 31, 14, 1, 54]]))
array([[54, 1, 14, 31, 62, 98],
[89, 17, 36, 33, 49, 17],
[31, 54, 36, 87, 29, 7],
[67, 47, 39, 89, 41, 5],
[29, 71, 41, 55, 30, 72]])
arr[::-1,::-1] # 将所有的元素倒置
————显示结果————
array([[29, 71, 41, 55, 30, 72],
[67, 47, 39, 89, 41, 5],
[31, 54, 36, 87, 29, 7],
[89, 17, 36, 33, 49, 17],
[54, 1, 14, 31, 62, 98]])
使用reshape()函数可以对数组维度变形:
arr1 = arr.reshape(30) # 将二维数组变形成一维数组
————显示结果————
array([98, 62, 31, 14, 1, 54, 17, 49, 33, 36, 17, 89, 7, 29, 87, 36, 54,
31, 5, 41, 89, 39, 47, 67, 72, 30, 55, 41, 71, 29])
arr2 = arr1.reshape(3,10) # 将二维数组变形为二维数组
————显示结果————
array([[98, 62, 31, 14, 1, 54, 17, 49, 33, 36],
[17, 89, 7, 29, 87, 36, 54, 31, 5, 41],
[89, 39, 47, 67, 72, 30, 55, 41, 71, 29]])
四、numpy的级联操作
- 将多个numpy数组进行横向或纵向的拼接
- axis轴向的表示:在numpy的大多数函数中,axis=0表示纵向操作;axis=1表示横向操作。但是,在drop类函数中,二者相反。
注:拼接的两个数组必须维度和行列数一致。
np.concatenate((arr,arr),axis=0)
————显示结果————
array([[98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89],
[ 7, 29, 87, 36, 54, 31],
[ 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29],
[98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89],
[ 7, 29, 87, 36, 54, 31],
[ 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29]])
np.concatenate((arr,arr),axis=1)
————显示结果————
array([[98, 62, 31, 14, 1, 54, 98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89, 17, 49, 33, 36, 17, 89],
[ 7, 29, 87, 36, 54, 31, 7, 29, 87, 36, 54, 31],
[ 5, 41, 89, 39, 47, 67, 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29, 72, 30, 55, 41, 71, 29]])
五、常用的聚合函数
- sum, max, min, mean
arr.sum() # 求出数组元素之和
————显示结果————
1331
arr.sum(axis=1) # 求出数组每一行元素之和;如果axis=0,则求出数组每一列元素之和
————显示结果————
array([260, 241, 244, 288, 298])
# 其他聚合函数的使用方法大致相同
六、常用的数学函数
- numpy提供了标准的三角函数:sin(), cos(), tan()
- numpy.around(a, decimals)函数返回指定数字的四舍五入值
参数说明:a-数组;decimal-舍入的小数位数,默认值为0,如果为负,整数将四舍五入到小数点左侧的位置。
np.around(3.14,1)
————显示结果————
3.1
np.around(3.14,-1)
————显示结果————
0.0
np.around(6.34,-1)
————显示结果————
10.0
七、常用的统计函数
- numpy.amin() 和numpy.amax(),用于计算数组中的元素沿指定轴的最小、最大值
- numpy.ptp() 函数计算数组中元素最大值与最小值的差(可指定轴向)
- numpy.median() 函数用于计算数组中元素的中位数
- 标准差std()
- 方差var()
np.ptp([[1,2,3],[6,9,23]],axis=0) # 返回数组中每一列元素的极差
np.ptp([[1,2,3],[6,9,23]],axis=1) # 返回数组中每一行元素的极差
————显示结果————
array([ 5, 7, 20])
array([ 2, 17])
arr[1].std() # 返回数组第一行的标准差
arr[1].var() # 返回数组第一行的方差
八、矩阵相关的函数
- numpy中包含了一个矩阵库numpy.matlib,该模块中的函数返回的是一个矩阵,而不是ndarray对象
- numpy.matlib.identity() 函数返回给定大小的单位矩阵
- 行列转置
- 两个矩阵相乘
arr.T # xx.T 将xx数组行列转置
a1 = np.array([[2,1],[4,3]])
a2 = np.array([[1,2],[1,0]])
np.dot(a1,a2) # 将a1和a2两个矩阵相乘
————结果显示————
array([[3, 4],
[7, 8]])
数据分析三剑客之pandas模块
为什么要学习pandas?——numpy能够帮助我们处理的是数值型的数据,pandas可以帮我们很好的处理除了数值型的其他数据。
在pandas中常用的两个类:Series、DataFrame
一、Series的用法
Series是一种类似于一维数组的对象,由下面两个部分组成:
- values- 一组数据(ndarray类型)
- index- 相关的数据索引标签
1、Series的创建
- 由列表或numpy数组创建
- 由字典创建
首先导入模块:
from pandas import Series
s = Series(data=[1,2,3,'four']) # 创建一个Series类的数组
————显示结果————
0 1
1 2
2 3
3 four
dtype: object
可以为Series类的数组指定显式索引,增强Series的可读性:
s = Series(data=[1,2,3,'four'],index=['a','b','c','d']) # 指定行索引为'a','b','c','d'
————结果显示————
a 1
b 2
c 3
d four
dtype: object
由字典创建一个Series类的数组:
dic = {'语文':100,
'数学':99,
'英语':89}
s1 = Series(data=dic) # 字典里面的key成为Series对象里的显式行索引
————结果显示————
语文 100
数学 99
英语 89
dtype: int64
s1.语文 # 返回显式索引所对应的数值
————结果显示————
100
s1[0:2] # 取s1中的前两行数据
————结果显示————
语文 100
数学 99
dtype: int64
2、Series的常用属性
- shape
- size
- index
- values
- dtype
s1.shape # 返回数组形状
————结果显示————
(3,)
s1.size # 返回元素个数
————结果显示————
3
s1.index # 返回数组索引
————结果显示————
Index(['语文', '数学', '英语'], dtype='object')
s1.values # 返回元素
————结果显示————
array([100, 99, 89], dtype=int64)
s1.dtype # 返回元素类型
————结果显示————
dtype('int64')
注:Series中只能存储同类型的元素。
3、Series的常用方法
- head(), tail()
- unique()
- isnull(), notnull()
- add(), sub(), mul(), div()
s2 = Series(data=np.random.randint(60,100,size=(10)))
s2.head(4) # 显示s2数组中的前4个数据,如果不指定个数,则默认为前5个
————结果显示————
0 98
1 97
2 83
3 66
dtype: int32
s2.tail(4) # 显示数组中的后4个数据
s2.unique() # 表示数据去重
s2.isnull() # 用于判断每个元素是否为空,是返回true,否返回false
————结果显示————
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
dtype: bool
4、Series的算术运算
- 法则:索引一致的元素进行算术运算,不一致则补空
d1 = Series(data=[1,2,3],index=['a','b','c'])
d2 = Series(data=[1,2,3],index=['a','d','c'])
d = d1 + d2
————结果显示————
a 2.0
b NaN
c 6.0
d NaN
dtype: float64
二、DataFrame的用法
介绍:DataFrame是一个表格型的数据结构。DataFrame由按一定顺序排列的多列数据组成,将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。
- index - 行索引
- columns - 列索引
- values - 值
1、DataFrame的创建
- ndarray创建
- 字典创建
首先从pandas库导入DataFrame:
from pandas import DataFrame
df = DataFrame(data=[[1,2,3],[4,5,6]]) # 用ndarray的形式创建
df = DataFrame(data=np.random.randint(0,100,size=(6,4)))
dic = {
'name':['zhangsan','lisi','wangwu'],
'salary':[100,2000,3000]}
df = DataFrame(data=dic) # 用字典的形式创建
————结果显示————
name salary
0 zhangsan 100
1 lisi 2000
2 wangwu 3000
**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化资料的朋友,可以点击这里获取](https://bbs.csdn.net/topics/618540462)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**