本系列为高中信息技术笔记,有需要的小伙伴可以持续关注哦
文章格式介绍
-
此类注释框为重点内容强调和我对于重要内容的理解
-
重难点采用加粗标出
-
删除线为玩笑内容或错误内容 -
此类文字表示常见或易错的问题或代码语句
当内容多行时,也会用代码块
-
斜体样式表示专用名词
-
所有的数学公式、符号等,均采用 L a T e X ;数字等均采用此格式 所有的数学公式、符号等,均采用LaTeX;数字等均采用此格式 所有的数学公式、符号等,均采用LaTeX;数字等均采用此格式
本章为普通高中教科书信息技术必修一数据与计算的第四章的4.2大数据处理
熟悉我的小伙伴应该都比较清楚,高能笔记这个系列是一个以教科书每一章内容为最小单元的笔记教辅,而这一课,我却将大数据处理这一课的Pandas部分内容单独拿出,为什么呢?因为Pandas模块的内容,太细致了,所以为了控制篇幅,这一课独立成篇~
在使用Pandas模块前,必须在代码开头写上import pandas
有时为了写代码的方便,我们会写import pandas as pd
,这样后文写pandas.
的地方就可以写pd.
pd
是自定义的名字,你也可以取别的名字
实际操作必读
如果你的电脑第一次使用pandas等模块,直接引用会显示错误(因为这些模块需要我们去下载)
- 按住Windows徽标键(就是键盘上那个Windows标志)+R键(不需要调整为大写模式)
- 弹出的窗口中输入cmd,并点击确定
- 在命令行中输入
pip install pandas
并回车来下载Pandas - 在命令行中输入
pip install openpyxl
并回车来下载读取Excel的模块 - 在命令行中输入
pip install matplotlib
并回车来下载绘图模块 - 如果哪天你发现你的Pandas模块代码执行后半天没有反应,可能是你的Pandas模块版本太旧了,重复如上操作,并输入
python -m pip install --upgrade pip
并回车来更新你的Pandas模块 - 特别提示:回车后一段时间内计算机会没有反应(这是正常的,说明计算机去寻找了),几秒后它会弹出下载的动态,直到计算机出现
Successfully install
这样的句子表示下载成功(在弹出成功下载之前关闭窗口可能会导致下载不成功)
一. 一维数据结构Series
Series本身不是考试考点,但是,我觉得它的学习,可以建立对Pandas模块的思考思维和理解,所以也放在这里详细讲讲
Part1.介绍
总的来说,它的用法和字典类似,都是自定义一个键和值
但是两者的创建方法略有不同,Series的定义需要引用Pandas模块的函数进行实现
s=pandas.Series([165,527,623])
这样就创建了一个Series类型的变量
Series 中的“S”必须大写,因为这是规定好的函数名
pandas.
是Pandas模块函数的前缀,表示采用的是Pandas模块中的函数
Series()
可以将它与之前的int()
联系起来,都是强制转化变量类型的函数
Series([165,527,623])
表示将列表[165,527,623]
强制转化为Series类型变量
而此时s
变量输出的结果就如图1.1
左侧一列的数字称为索引(索引是从 0 0 0开始的),索引的英文为index
右侧一列的数字称为值,英文为Values
dtype
表示这个数据项的类型是int
型 64 64 64位
我一开始说了,Series类型变量中的“键”(也就是这里的index)可以自定义,那怎么写呢?
s=pandas.Series([165,527,623],index=['x1','x2','x3'])
输出的结果就如图1.2
注意,我们如果在定义式写入index=['x1','x2','x3']
此类标签语句,index的个数一定要与列表中的值的个数相等,即每一个值都要有对应的索引(索引要么全部自动生成,要么全部自定义)
在Pandas模块中,像这种不属于所在语句的必备,但具有特定功能的小语句(且这小语句往往可以在其他大语句中发挥相同的作用),我们称之为标签语句
如果值的个数与索引个数不匹配,计算机会报错(报错的内容大家也要注意观看)
Part2.Series对象的常用属性
属性 | 说明 |
---|---|
index | Series的下标索引,其值默认是从0起递增的整数 |
values | 存放Series值的一个数组 |
1. 索引 index
- 通过index可以来获取Series中某一个index对应的值,且通过赋值语句可以在原变量上直接修改
同样还可以修改后并输出