当年学Python饶了不少原路,跋山涉水终于到了心目中数据分析的核心区域,接下来要学习的内容对自己来说都是新的知识,打起精神,充满好奇心地探索未知领域。同时,不要忘了学习的初心,是为了早日找到一份理想的数据分析工作,而不只是为了打发时间而学习。
一维数据结构
- Numpy
- numpy用array方法来定义一维数组
-
- numpy一维数组和python的列表类似,以下是相同的部分
- 查询元素a[0]
- numpy一维数组和python的列表类似,以下是相同的部分
-
-
- 切片访问a[1:3]
-
-
-
- 循环访问for i in a
-
-
-
- 用dtype查看数据类型
-
-
- numpy一维数组和python的列表的区别
- 统计功能。平均值mean(),标准差std()
- numpy一维数组和python的列表的区别
-
-
- 向量化计算。加法和乘法
-
-
-
- array类的数据类型必须一致
-
- Pandas
- pandas用series方法来定义一维数组,比numpy功能更多
- Pandas可以通过index来指定索引
-
- 用describe来获取描述统计信息
-
- 两种属性获取元素
- iloc属性根据位置获取值
- 两种属性获取元素
-
-
- loc属性根据定义的索引获取值
-
-
- 如何避免向量计算结果中空值的出现
- 用dropna方法删除缺失值
- 如何避免向量计算结果中空值的出现
-
-
- 使用add方法中的fill_value参数,将缺失值进行填充
-
二维数据结构(有点类似excel的二维表格)
- Numpy
- numpy还是通过array方法来定义二维数组
-
- 查询元素a[0,2]
-
- 获取第一行a[0,:]
-
- 获取第一列a[:,0]
-
- 数轴参数
- Axis=1 按行计算
- Axis=0 按列计算
- 数轴参数
- Pandas
- pandas通过dataframe方法来定义二维数组
-
- numpy中每个元素都属于同一种类型,在数值计算中有用,但不利于表示excel中的内容
- pandas的二维数组相比numpy有两个优点
- 每一列可以是不同数据类型
- 有索引的功能,行和列都有一个索引值
- 通过字典传入dataframe,key是每一列的属性,value是每个属性的所有值
- 为了让列名按照原表顺序,需要导入OrderDict
- 平均值计算按列来求平均值
-
- 两种方法获取元素
- iloc方法根据位置获取值
- 两种方法获取元素
-
-
- loc根据定义的索引获取值(更常用),理解获取某一个元素,通过行名获取某一行和通过列名获取某一列
-
-
- 查询某几列。a[x,z]查询x和z列
- 通过切片功能,查询某几列。a.loc[x,z]查询x,y,z列
- 通过条件判断筛选
- 构建查询条件
- 应用查询条件