pandas学习笔记_pandas中的full函数-CSDN博客

本文链接：https://blog.csdn.net/qq_38445415/article/details/81263204

用到的学习资料

https://www.jianshu.com/p/f7db07e0c769

https://www.jianshu.com/p/d630c14d3ea0

https://www.jianshu.com/p/66bcd5582253?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

https://www.jianshu.com/p/161364dd0acf?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

sklearn,交叉验证https://www.jianshu.com/p/731610dca805

用pandas读取csv文件

import pandas as pd
import numpy as np
df=pd.read_csv(r'C:\Users\pc\Desktop\cancer_null.csv',header=None,sep=',')#seq是分隔符
print (df.head())#默认打印前五行
print (df.tail())#默认打印后五行
#重命名各个标题
df=pd.read_csv('filename',header=None,sep='',names["week",'month','date','time','year','name1','freq1','name2','freq2','name3','data1','name4','data2']) 
print(df)

错误： df=pd.read_csv('C:\Users\pc\Desktop\cancer_null.csv',header=None,sep=',')
^
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

注意windows输入路径要注意防转义 r' 路径 ',或将\改成/或者\\


#通过等⻓长字典创建
DataFrame data={'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]} 
frame=DataFrame(data) 
DataFrame(data,columns=['c','b','a'])#指定顺序
frame2=DataFrame(data,index=['a','b','c'])
frame['a'] 
返回指定的列，行名是1
frame.loc['1'] 
#返回指定的⾏，第一行
frame.iloc[1] 

data=DataFrame(np.arange(12).reshape(3,4),columns=['a','b','c','d'])

返回列数：

df.shape[1]

返回行数：

df.shape[0]

第二题解决方法（把列名为2的列中值为‘M’的改成1，为‘B’的改成0）

老师的方法是replacehttp://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.replace.html

df.loc[df[2]=='M',2]=1

df.loc[df[2]=='B',2]=0


df.loc[df[2]=='M',2]=1
df.loc[df[2]=='B',2]=0

#方法来源

In [16]: df.loc[(df['BBB'] > 25) | (df['CCC'] >= 75), 'AAA'] = 0.1; df
Out[16]: 
   AAA  BBB  CCC
0  0.1   10  100
1  5.0   20   50
2  0.1   30  -30
3  0.1   40  -50

作者：default
链接：https://www.jianshu.com/p/f7db07e0c769
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

基本的统计分析函数：适用于Series和DataFrame类型数据

方法	说明
.sum()	计算数据的总和，按0轴计算，下同
.count()	非NaN值的数量
.mean() .median()	计算数据的算术平均值、算术中位数
.var() .std()	计算数据的方差、标准差
.min() .max()	计算数据的最小值、最大值
.describe()	针对0轴（各列）的统计汇总

问题：means()和var()没有MB转换成01的那一列数据，median()有

调用方法上：df.sum()、df.sum(axis=1)分别是按列和行求和

画直方图

划重点：df[key].hist()

批量保存到本地：df[i].hist(color='g',alpha=0.5,bins=620).get_figure().savefig(r'C:\Users\pc\Desktop\pic\{}.jpg'.format(i))

getfigure().savefig()是用于保存的，不写直接显示

遇到的问题，保存的都是第一张图

#-*- coding:utf-8 -*-
import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.rand(100,4),columns=list('abcd'))
d=df['a'].hist().get_figure()
d.savefig('2.jpg')

数据清洗

删除非NAN少于33的行：df.dropna(thresh=33)

数据填充

df_full=df_full.fillna(method='ffill',limit=3)

bfill是用后面的数据填充，limit是向前最多搜寻3次

删除不完整的行

假设我们想删除任何有缺失值得行。这种操作太据侵略性，但是我们可以根据我们的需要进行扩展。

删除任何包含 NA 值的行是很容的：

data.dropna()

查看df有多少个nan

in: df.shape[0]-df.count()
Out[27]:
时间 0
小区名 0
小区房屋出租数量 1001
楼层 0
总楼层 0
房屋面积 0
房屋朝向 0
居住状态 176401
卧室数量 0
厅的数量 0
卫的数量 0
出租方式 172309
区 31
位置 31
地铁线路 104761
地铁站点 104761
距离 104761
装修情况 178047
月租金 0
dtype: int64