数据分析入门 | kaggle泰坦尼克任务（三）—＞探索数据分析

猿知

已于 2022-03-17 21:40:35 修改

阅读量1k

点赞数 1

分类专栏： # 数据分析入门文章标签：数据分析数据挖掘 python

于 2022-03-17 21:39:13 首次发布

本文链接：https://blog.csdn.net/Magic_Zsir/article/details/123561439

版权

数据分析入门专栏收录该内容

4 篇文章 0 订阅

订阅专栏

请添加图片描述

系列索引：数据分析入门 | kaggle泰坦尼克任务

文章目录

一、探索性数据分析
（1）创建一个模拟数据
（2）排序
（3）利用Pandas进行算术计算

一、探索性数据分析

主要介绍利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。

（1）创建一个模拟数据

#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), 
                     index=['2', '1'], 
                     columns=['d', 'a', 'b', 'c'])
frame

pd.DataFrame()：创建一个DataFrame对象

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=['2, 1] ：DataFrame 对象的索引列

columns=['d', 'a', 'b', 'c']：DataFrame 对象的索引行

（2）排序

frame.sort_values(by='c', ascending=True) #by参数指向要排列的列，sacending指向排序方式（升序/降序）
# 让行索引升序排序
frame.sort_index()
# 让列索引升序排序
frame.sort_index(axis=1)
# 让列索引降序排序
frame.sort_index(axis=1, ascending=False)
# 让任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)

对于两列进行排序时，按照先后顺序排列，如果前者中存在相等的数，则按后面一个列进行排序。
如：sort_values(by=['a','c'].ascending = [False, True])
这行意思是先按照a进行降序排列，当a中有相同值时按b升序排列。

（3）利用Pandas进行算术计算

frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])
frame1_a

#将frame_a和frame_b进行相加
frame1_a + frame1_b

【提醒】两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。

当然，DataFrame还有很多算术运算，如减法，除法等，有兴趣的同学可以看《利用Python进行数据分析》第五章算术运算与数据对齐部分，多在网络上查找相关学习资料。

# 调用 describe 函数，观察frame2的数据基本信息

frame2.describe()

'''
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
'''

'''
看看泰坦尼克号数据集中 票价 这列数据的基本统计数据
'''
text['票价'].describe()

数据分析入门 | kaggle泰坦尼克任务系列持续更新，欢迎点赞收藏＋关注

上一篇：数据分析入门 | kaggle泰坦尼克任务（二）—＞pandas基础
下一篇：数据分析入门 | kaggle泰坦尼克任务（四）—＞数据清洗及特征处理

本人水平有限，文章中不足之处欢迎下方👇评论区批评指正~

如果感觉对你有帮助，点个赞👍 支持一下吧 ~

不定期分享有趣、有料、有营养内容，欢迎订阅关注 🤝 我的博客，期待在这与你相遇 ~