2021-06-16

动手学数据分析

个人对数据挖掘比较感兴趣,所以本次跟随Datawhale组织的动手学数据分析组队活动,入手数据分析,希望能有所收获。本文主要记录一些学习上的重点

一、读取数据:知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?
要想效果相同,将read_table的分隔符参数sep改为‘,’。
read_table将范式的分隔符分隔值的文件读入DataFrame,默认为将制表符分隔的值(TSV)文件读入DataFrame。
read_csv将逗号分隔的值(CSV)文件读入DataFrame。

看看效果图:read_table

在这里插入图片描述read_csv
在这里插入图片描述read_table是每一行字符串为一列,而不是每一行字符串为一列,它是将每一行作为一个维度进行存储,数据看起来更加紧凑、拥挤。
read_csv 是每一个字符串为一列,数据看起来更加有序

二、不同格式数据文件的区别以及处理方法
TSV与CSV的区别:
1、从名称上即可知道,TSV 是Tab-separated values的缩写,即制表符分隔值,是用制表符(Tab,’\t’)作为字段值的分隔符;CSV,Comma-separated values是用半角逗号(’,’)作为字段值的分隔符;

2、IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。
Python对TSV文件的支持: Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。 delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。 当delimiter=’\t’时,被处理文件就是TSV。
csv是逗号分隔值文件格式,用纯文本形式存储表格数据,可以用记事本或Excel打开;xlsx是Excel标准的文件;tsv是制表符分隔值,用Tab,’\t’作分隔符。

3、读取csv和tsv不同格式文件方法:
df = pd.read_csv(‘train.csv’)
df = pd.read_csv(‘train.csv’, sep=’\t’)

三、分块读取
每100行为一个模块,逐块读取
代码:chunker = pd.read_csv(‘train.csv’,chunksize=1000)

Q:什么是逐块读取数据
A:将数据分成小块按照快读取,得到对象指向了多个分块对象,但并没有将实际数据线读入,而是在提取数据时才将数据提取进来。
Q:为什么要逐块读取数据呢?
A:分块思想类似计算机组成原理中存储结构中的段页表思想,在面对庞大的数据时,按照一定属性,对大数据进行分块,拆分为一个个小块,可以减少对计算机内存的占用,让易于运算的资源先得到处理,降低数据对内存的使用量,分块思想很适用于数据清洗。

四、查看列值的多种方法
在这里插入图片描述
五、不同排序方式的总结
在这里插入图片描述

六、对数据进行分析得出有价值的结论
1、首先利用函数统计出数据:
在这里插入图片描述

在这里插入图片描述从上面数据我们可以看出, 一共有891个票价数据, 平均值约为:32.20, 标准差约为49.69,说明票价波动特别大, 25%的人的票价是低于7.91的,50%的人的票价低于14.45,75%的人的票价低于31.00, 票价最大值约为512.33,最小值为0。当然这些只是静态的数字,我们要通过我们的思维把他们转化为有价值的数据。
数据分析:
①一共有891个票价数据说明,样本量足够大,具有一定的代表性的和说明性。
②平均值32.2<标准差49.69说明,大部分人的票价达不到平均值。
③25%的人的票价是低于7.91的,50%的人的票价低于14.45,75%的人的票价低于31.00, 票价最大值约为512.33,最小值为0。说明票价的高的很好,低的很低且低的占大多数,票价的两极分化严重,根据经济学原理,顾客为服务支付的价款与服务质量成正相关。所以我们可以推测泰坦尼克号上高级仓位数量稀少,且质量指标(舒适度、安全系数、隔音、服务质量等指标)比普通仓位高很多,为我们接下来分析泰坦尼克号上乘客的生存机会提供了一些判断依据。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值