用python数据分析统计服_python数据分析实战之泰坦尼克号统计

注意下载的时候可能需要创建用户什么的或者直接使用Google账号

也可以在这篇文章的附件中下载

源文章参考:

首先当然是各种库导入了;

笔者用的是windows的Anaconda,所以pandas,scipy,numpy,matplotlib都是直接封装好的,只需要装seaborn了,注意seaborn不支持python2.6.

安装seaborn通过以下命令

或者在下面的路径执行下面的命令

启动ipython notebook

在linux上也可以装Anaconda,或者直接以及pip安装,pip安装可以参考我的http://youerning.blog.51cto.com/10513771/1711008

下面是笔者所用的各种库以及其版本了

Python version 2.7.9 |Anaconda 2.2.0 (64-bit)| (default, Dec 18 2014, 16:57:52) [MSC v.1500 64 bit (AMD64)]

Pandas version 0.15.2

Seaborn version0.6.0

Matplotlib version1.4.3

好吧show Time

读入准备好的数据文件:

简单的预览一下数据结构及信息,head默认查看前5条,如果需要更多可以在括号里填入相应的数字:

也可以通过info查看每个字段的一些统计信息

Int64Index: 891 entries, 0 to 890

Data columns (total 12 columns):

PassengerId    891 non-null int64

Survived       891 non-null int64

Pclass         891 non-null int64

Name           891 non-null object

Sex            891 non-null object

Age            714 non-null float64

SibSp          891 non-null int64

Parch          891 non-null int64

Ticket         891 non-null object

Fare           891 non-null float64

Cabin          204 non-null object

Embarked       889 non-null object

dtypes: float64(2), int64(5), object(5)

memory usage: 90.5+ KB

#简单统计男女比例,我们data数据选择titanic_df,然后选择其中的Sex字段作为X轴,其中kind : {point, bar, count, box, violin, strip}一共六种方式,我们选count,有的版本似乎不需要选择kind=count

#为了更细化,我们显示以Pclass作为X轴,统计每个等级中的男女比例:

我们也可以将男女分为男,女,小孩,为原有数据库新增一个字段

定义一个函数,判断男,女,小孩

###新增一字段“Person”

再次在Pclass分类中体现男女小孩的比例

简要查看各年龄段的发布,将年龄段的间距分为70段,默认10段,你当然可以分得更细或者更系数

查看平均年龄:

29.69911764705882

查看“Person”字段的数量统计

male      537

female    271

Child      83

dtype: int64

统计不同年龄段,个类别的分布趋势,核密度统计方式

注:核密度估计,参考:http://www.lifelaf.com/blog/?p=723

注:hue代表除row,col之外的第三维度,等级,不同的类型不同的颜色

Palette代表调色板

###使用Facet函数创建plot,以“Sex”字段区分等级,aspect=4代表宽度为之前的4倍

上面画出的图片很美腻有木有!!!

统计不同船舱的人数分布

1      C85

3     C123

6      E46

10      G6

11    C103

Name: Cabin, dtype: object

由上可发现船舱的类别由第一个字符可以加以区分可以得到各船舱人数的数量

##去cabin_df数据集的Cabin字段,颜色用winter_d,方法调用count

因为上面T船舱的数量实在太小,酌情删除

然后生成图片

统计进站港口的数量分布

统计单身及有家庭的人数分布

0     1

1     1

...

876    0

877    0

###由上可知,大于1的都是有兄弟姐妹或者父母孩子的

统计Alone的发布人数

统计存活的以及没存活的分布

下面的没太看懂,所以不深入了

后记:这篇文章主要是摘自Python for data Analysis的视频内容翻译过来的,也填了一些坑,统计了一些现存数据的统计结果,统计什么倒不是很重要,主要是这么统计,怎么画图美腻的统计图~~~我也是一名菜鸟,大家共勉,希望有个菜鸟之数据分析进阶的系列跟大家一起分享,后面应该还会有一篇关于股票的,敬请期待^_^

本文转自 youerning 51CTO博客,原文链接:http://blog.51cto.com/youerning/1711371

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值