data:image/s3,"s3://crabby-images/52f2b/52f2bf4aaf4e6f454d41eaaacfff68eb69503b48" alt="95d32b8ce51049740cb784751dc7e626.png"
关于Excel的一些基本操作,对应到pandas里应该如何实现呢?
data:image/s3,"s3://crabby-images/54802/54802e43409f128751787c95040c80a5bea61b2f" alt="d8a727f24e4bddb5286f57a6cbec856f.png"
我的python数据分析环境是Anaconda和Jupyter notebook。
Part 1 excel的创建和读取
1、创建
#导入pandas数据包
打开文件路径,可找到创建的excel以及内容
data:image/s3,"s3://crabby-images/0c133/0c133b4bc0941f6be5e1f8cf2ebc03d588b0b005" alt="d7c9fa576913672ead3c072efc5e7237.png"
2、读取
#查看行列数
因为编程语言是从第0行(也就是excel的第一行)开始的,默认第0行当做header。所以,如果excel的header是在第二行的话,读取excel的时候,用下面的代码:
df
如果表格中没有header(ID、Nmame)的话
#第一种读取方法
查看列名时。会发现'ID'这一列从列名中消失,ID变成了索引(在DataFrame中index和columns是区分开的)
3、行、列、单元格
pandas的数组有Series和DataFrame
用序列Series来创建行or列。
- Series的属性:.index,.values, .name,.index.name
- dataframe 的属性:.columns, .index,.values
series和python里的字典{keys:values}数据结构很像,会把字典的keys转化为序列的index,values转换为序列的data,如何将dictionary转换成series的方法:
d
直接创建序列,series除了一组数据外还包括一组索引:
s1
如何将series创建行和列
- 若以List形式加入DataFrame, 則該Series是被當作DataFrame的row加入;
- 若以Dict形式加入DataFrame, 則該Series是被當作DataFrame的column加入。
s1
index,具有对齐的作用
s1
4、自动填充功能--数据区域读取和填充数字
这里的excel有空行和空列,如何读取呢?
data:image/s3,"s3://crabby-images/ca961/ca961e1ac93b32facb3b87a8f743126d06e7ab5e" alt="bd7cba199561efc89392531caca394a6.png"
import
data:image/s3,"s3://crabby-images/272f0/272f014919c6e5d427bc9ef5f8960756eb6ddaf9" alt="abd6aa6f3b8b40374b070d7bce5d2330.png"
使用read_excel的两个参数:skiprows和usecols
import
data:image/s3,"s3://crabby-images/4c628/4c628e1acb994eff4888c233df528ca7e532b1f5" alt="088418748f82bd3d7f065009addba7d0.png"
数据框中的每一列是series
print
Series中有一个函数是at,填充列【ID】
#在ID列的第一行填充一个数值
data:image/s3,"s3://crabby-images/39336/39336045abbfb353c5b3964dab4a1373629af40f" alt="a94f63068a2597aeb028dc7fbfce8a7d.png"
data:image/s3,"s3://crabby-images/cfa68/cfa682871dee7b00bac5921cb6cc29701d2da5f5" alt="aa424a867e5bae9857427adabec3bf0f.png"
#从上面的代码可看出dtype的类型改为int出错,先转为换为str
data:image/s3,"s3://crabby-images/c6ff3/c6ff3858a1886cfa8e3dc2fff027064755ddfbb1" alt="358a4d52598e5b5bab63124fceb868b9.png"
查看数据类型
Books
为了方便,这里把数据类型都改为字符串
import
填充【InStore】列
for
data:image/s3,"s3://crabby-images/f023c/f023cdfdd4adc41e027358bccbcac4347deb30bf" alt="476b97b31eb1ea14fba1682d91c28cb4.png"
填充列【Date】
from
data:image/s3,"s3://crabby-images/698c3/698c35b98c5dd4801b17b89f73f73cc81356e5bc" alt="29dbb67f533445a009b9ce390df7d16f.png"
5、填充日期序列(填数值,填文本,填日期)
给日期列逐一加一天
from
data:image/s3,"s3://crabby-images/cf9d8/cf9d89e7d2a9910b005aef94ba4ff8484307d49a" alt="16904b9314ab52ed89c604ca614dc5b1.png"
给年份逐一加1,timedeltah只能得出天以及天以下的时间。
from
给月份逐一加1(但只有12个月)
def
data:image/s3,"s3://crabby-images/71dec/71dec04081f0b96798737ce76c364543d00b1be8" alt="b2f6f39b0fbf2ee9733bda39b03f8e52.png"
这里将填充结果保存在原excel中
#这里不生成索引
data:image/s3,"s3://crabby-images/2d1b6/2d1b6324dfe630b844d249ce8e5c96f6c6a179bc" alt="7f7f3ed4fe759684c0952e57f30b3dfc.png"
上面的填充都是直接先找到series的某一列再去改,也可以直接使用dataframe的at函数,如:
start
part 2 只需一行代码
1、函数填充、计算列
1.1计算Price的值
import
data:image/s3,"s3://crabby-images/feb04/feb046ead55db477dbe688e395455e33e069268d" alt="33452bdbef12f1f2d8b5c0b418a4fe67.png"
books
得到Price这一列的值
data:image/s3,"s3://crabby-images/08e81/08e81ebc233af33c1f411f1ab270eacc71717425" alt="5652e72aa85c0c60eb3634fda10cce8e.png"
1.2[ListPrice]列的值+2
#方法1:
方法2 :运用到Series的apply函数
def
方法3:lambda函数
def
2、排序、多重排序
2.1按Price价格排序
#读取文件,设置列[ID]为索引
data:image/s3,"s3://crabby-images/f6177/f61770c894cc74b45373e72fe247b8bbc6577c78" alt="e493d5f7e123b66eb085a2778ac17629.png"
product
data:image/s3,"s3://crabby-images/a837b/a837b097133cec67de2ab6c69cf7c3ba87cb2ebb" alt="c79a7aa581b5adc0b489e499c3f1e550.png"
2.2 多重排序:先按Worthy排序再按Price排序
product
3、数据筛选、过滤
#帅选出年龄在18-30岁的学生
data:image/s3,"s3://crabby-images/fdf8c/fdf8cc1168081d57994bed7d590c6734ad292db0" alt="8cc53d80e2972f396c2c2764b4450709.png"
ps:在python中,选择【Age】这一列的方法,除了student['Age'],还可以使用student.Age
student
还可以用更高级的函数lambda函数,表达式为:lambda 函数名:函数体
#筛选出年龄在18-30岁且分数在85-100的学生
part 3 数据可视化
1、柱状图:bar
pandas的制图功能是构建在matplotlib(文件夹,packge)库上的,这里要使用的是他下班的pyplot模块。
import
data:image/s3,"s3://crabby-images/4a17e/4a17eefd979b2a874601cb0c23515ae2b28a5c47" alt="603a142c34c971299b15d9de7348a186.png"
图形的属性设置
#图形形状、颜色、标题
data:image/s3,"s3://crabby-images/0841b/0841b5afc87e97f80cabba84d44b4282d18d9d7f" alt="d27b7d66ea86c6e643471b741eec7e22.png"
ps:pandas作图没有matplotlib那么灵活,接下来就学习如何使用matplotlib绘图
import
data:image/s3,"s3://crabby-images/4fa70/4fa709d70e6bf1ab71d9e61451ae1f8d4fcd6b60" alt="0c76e1991603b11e6e897ac82e6a365f.png"
2、分组柱状图(深度优化)
data:image/s3,"s3://crabby-images/c3643/c36437e062b872f09524764564a7ec84ab97e291" alt="d017df345bbf230219c6857b08bb2d65.png"
student
data:image/s3,"s3://crabby-images/a6cf9/a6cf92c23c6bbf4e184f4df51f1483734d7aa41c" alt="4db7e8b7e77922f1b3292f4f7339f4c9.png"
这里旋转45°后的对其看起来挺奇怪的,可以给一个参数“HA”[Horizontal alignment must be one of ('center', 'right', 'left')]
data:image/s3,"s3://crabby-images/017a6/017a6cda26d77b003f9a1127aa299c80aa28dd88" alt="890ec700211492e1755bae4895654b36.png"
student
data:image/s3,"s3://crabby-images/cb078/cb078ddcdb6a13aaac9f8e2e8f0466b4cf79c025" alt="2f55fde8541286645215dacf654d49d7.png"
3、叠加柱状图和水平柱状图
3.1叠加柱状图
import
data:image/s3,"s3://crabby-images/e954a/e954ac9740feaa978b6d220469c075ac096cc391" alt="bcc2c24dc2d52a69098d602323779840.png"
可以加上plt.tight_layout()的效果:
data:image/s3,"s3://crabby-images/7e776/7e7761fe4c4ecc2198a285f50fe91e0515f6994d" alt="cfb0dc95b73ce607b3649e664eb35b44.png"
排序:总量由高到低
df
data:image/s3,"s3://crabby-images/bf0b3/bf0b311a9db0af8707a27a75dd593200a1f4ef4e" alt="ca7ef15653f1d864de456ea0b3de2371.png"
3.2 水平柱状图
只需把df.plot.bar改为df.plot.barh(),ascending=False改为ascending=True就行了,horizontal(水平线的意思)
import
data:image/s3,"s3://crabby-images/49589/495899268c6e413655ba4cbd7cb1e71440b6d40a" alt="4fa43ebe284d64e305c8f896b1de16d6.png"
4、饼图
import
data:image/s3,"s3://crabby-images/6e050/6e0507b6af72627d05c1fafd4cab569ee7c334f3" alt="5af80a7977c5a0438e33a3a293c1ac62.png"
此时是逆时针的饼图,如何制作成顺时针呢?
data:image/s3,"s3://crabby-images/f8eb7/f8eb778d910efd5627bb58c8370d1c4f3f9e3d3e" alt="2775763e01ab29d26f38ee5209b0d36e.png"
5、折线区域图和叠加区域图
5.1折线区域图
excel制图如下所示
data:image/s3,"s3://crabby-images/ec0b1/ec0b125170309fc88defc5b6759c7fb33ab16a5e" alt="8ac7dc93d17d728b0ae6182078328767.png"
weeks
data:image/s3,"s3://crabby-images/5cfa3/5cfa399c4bb470fb4824e86194b0881017dc0ccf" alt="b89a99b8a9490ec6931803df158fea3c.png"
5.2 叠加区域图
weeks
data:image/s3,"s3://crabby-images/20400/20400565051b4a8a89a350c887f313ad7e851b36" alt="17da8823c653281f838f152837d6857a.png"
5.3 可看出叠加柱状图和叠加区域图的区别:
weeks
data:image/s3,"s3://crabby-images/77720/777207fcb9ad4198590535fb26f65d0afc85a06b" alt="3332a0faa90ed1c46f4954c5522d75f7.png"
6、散点图和直方图
6.1 散点图
homes
data:image/s3,"s3://crabby-images/74617/74617ccd1c4e93817a80f89c159f3a2f9b371219" alt="f5b0dd1214f7f59e5e3563c5f6a3b95a.png"
6.2直方图
看西雅图地区面积的房价分布情况
homes
data:image/s3,"s3://crabby-images/7e911/7e9117e8221f6912741d5e382c8b7933687d3c26" alt="e3b842357c14532ddcad7d384bb4d3f1.png"
7、密度图(density)
homes
万分之四到万分之五之间的概率能买到一个1250尺的房子。
data:image/s3,"s3://crabby-images/14a8f/14a8fa2937d4ae92f3cd4f0ebe261109f6252c0a" alt="17dc1bf67455bbc85a48b2f4b6f1393f.png"
以上展示了pandas和matplotlib的绘图功能,包括:
- 柱状图:bar(分组柱状图、叠加柱状图、水平柱状图)
- 饼图:pie
- 折线图:plot(折线区域图、叠加区域图)
- 散点图:scatter
- 直方图:hist(histogram)
- 密度图:kde
对于图形属性应多实践才能记得牢靠!!!
data:image/s3,"s3://crabby-images/54802/54802e43409f128751787c95040c80a5bea61b2f" alt="d8a727f24e4bddb5286f57a6cbec856f.png"
附上以上内容的学习视频,感兴趣的同学可以戳下面的链接。
Python数据分析-pandas玩转Excel - 网易云课堂