第一部分 导入两类型数据包(numpy和pandas)
#导入数据包
import pandas as pd
import numpy as nu
1.创建数组
a)numpy 数据包
#创建0-5的数组集合
a=nu.array([0,1,2,3,4,5])
查询集合元素
a[0] --0 返回第一个元素
切片访问
a[2:4] -- array([2,3,4]) 返回一段区间元素
循环访问
for i in a
print (i) 0 1 2 3 4 5 --返回集合中的元素
数据类型
a.dtype
dtype('int32') --查询数据类型
numpy 数组两个和list 区别
1. 统计功能 平均值(mean),标准差std()
2. 向量化计算 1)向量相加 2)乘以标量 必须是同一种数据类型
b) pandas 数据包
#创建pandas数组,利用series 及index 索引构建数据集合
stock=pd.Series([54.74,190.9,173.14,1503,547,22.9],
index=['腾讯','alibaba','苹果','万达','Facebook','亚马逊'])
#获取统计信息
stock.describe() --统计功能,计算标准值,方差和极值
#获取位置信息
stock.iloc[2] --返还第3个数组元素的值 173.14
#根据索引值获取信息
stock.loc['腾讯'] --返回腾讯对应的54.74值
#计算平均股价
stock.describe().loc['mean']
#向量相加
s1=pd.Series([1,2,3,4],index=['a','b','c','d'])
s2=pd.Series([10,20,30,40],index=['a','b','e','f'])
s3=s1+s2
s3 --如果索引中的字段没有相对应,对应的数组值就会变nan
a 11.0
b 22.0
c NaN
d NaN
e NaN
f NaN
dtype: float64
nan值处理
a) #删除空值
s3.dropna()
a 11.0
b 22.0
dtype: float64
b) #将空值进行补充
s3=s1.add(s2,fill_value=0) --用 (.add fill_value) 进行空缺值补充
2.二位数组
a) numpy 二维数组
# 定义一个二维数组
a=nu.array([[1,2,3,4],[2,3,4,5],[5,6,7,8]])
print(a)
#查询元素 --0代表第1行,2代表第3列,输出结果3
a[0,2]
#查询第一行
a[0,:] --输出第一行,所有列值 array([1, 2, 3, 4