之前因为没能及时更新教材程序耽误了,周末两天补上了day4和day5的学习
day4的内容还是比day5简单的,总结一下具体学习的几个方法。
1.data.index
这个方法会输出行的范围,一般是从0开始,但是结束会给N+1,实际上结束就到N行
2.data.columns
这个方法会输出每一列也就是每个特征的名称以及这些特征的类型,一般是object,算是字符串类型
3.pd.read_csv和pd.read_excel
这两个方法都是pandas库里面的,读取需要处理的两种形式的表格
4.type()
这个是查看括号内对象的类型的,一般读取的到多行表格是pandas.core.frame.DataFrame类型的,但如果是只有一行的话就会是Series类型的
5.data.isnull()
这个很好理解,is null是否是空值的意思,会生成一个和data同样类型的对象,通常也是DataFrame类型的,只不过内容从具体数字换成了布尔值,也就是true和false,
我学习这几天空值的类型就见过两种,一种是numpy库里面的np.nan另一种是None,这两类都会被判定为true。
如果只想要对某一列进行这样的操作,可以在data["列名称"].isnull()
6.data.head()
这个方法用于查看data的前几行,默认是5行,会输出每一列的前5行数据
7.data.info/data.shape
前一个info对应英语单词information,会输出非常详细的data的列数,行数以及每一行的昵称对应着非空值数量,每一行数据的类型,甚至所占用的空间大小。
相比之下shape只会输出行数和列数,粗糙得很。
8.data.describe
describe会输出每一列数据的特征,比如非空值数量,平均值,标准差,还有从0开始到100,每隔25%分位点的数值。
9.data.dtype
这个也是输出data类型的,和前面的type(data)功能比较相似吧
10.data.sum()
sum就是加的意思,把每一列的全部数字加起来,生成一个Series类型的对象
还有最重要的补全功能fillna,理解它花了我很长时间,但是今天快过12点了,也不是故意水打卡,一块写到明天的打卡里吧,今天来不及了。@浙大疏锦行
1115

被折叠的 条评论
为什么被折叠?



