复习:数据分析的第一步,加载数据我们已经学习完毕了。当数据展现在我们面前的时候,我们所要做的第一步就是认识他,今天我们要学习的就是了解字段含义以及初步观察数据。
1 第一章:数据载入及初步观察
1.4 知道你的数据叫什么
我们学习pandas的基础操作,那么上一节通过pandas加载之后的数据,其数据类型是什么呢?
开始前导入numpy和pandas
import numpy as np
import pandas as pd
1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰[开放题]
Series
Series是一个一维标记数组,能够保存任何数据类型(整数、字符串、浮点数、Python 对象等)。轴标签统称为index。
创建系列的基本方法是调用:
s = pd.Series(data, index=index)
-
运算
- s1+s2 #索引相同的元素相加,不同的则补充Nan
- s * 2 #所有元素 * 2
- s+1 #所有元素+1
-
常用方法
- s.index #查看索引
- s.values #查看数值
- s.isnull() #查看为空的,返回布尔型
- s.notnull()
- s.sort_index() #按索引排序
- s.sort_values() #按数值排序
#写入代码
#创建Series
s = pd.Series(['a','b','c','d']) #默认索引
s
0 a
1 b
2 c
3 d
dtype: object
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"]) #指定索引
s
a 0.174499
b 0.826603
c -0.504941
d 1.154826
e 0.194536
dtype: float64
s = pd.Series({
"b": 1, "a": 0, "c": 2}) #指定索引
s
b 1
a 0
c 2
dtype: int64
s = pd.Series(5.0, index=["a", "b", "c", "d", "e"]) #相同值
s
a 5.0
b 5.0
c 5.0
d 5.0
e 5.0
dtype: float64
#我们举的例子
sdata = {
'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
example_1
Ohio 35000
Texas 71000
Oregon 16000
Utah 5000
dtype: int64
DataFrame
dataframe是非常常见的一个表格型数据结构,每一列可以是不同的数值类型,有行索引、列索引。提到它就会自然想到Pandas这个包。平常用Python处理xlsx、csv文件,读出来的就是dataframe格式。
DataFrame 接受多种不同类型的输入:
- 一维数组、列表、字典或系列的字典
- 二维 numpy.ndarray
- 结构化或记录ndarray
- 一种 Series
- 其他 DataFrame
#我们举的例子
data = {
'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'