Datawhale-动手学数据分析-Task1

第一章

🙏截图导致了巨糟糕的排版

第一小节

  1. 使用 os.getcwd() 时需要 import os 即导入操作系统接口模块来查看当前工作路径。
pd.read_csv()pd.read_table()
加载带分隔符的数据,默认分隔符是逗号(,加载带分割符的数据,默认分隔符是制表符(\t
读出的数据一行为一个列表,列表里每个字符串自成一列pd.read_csv()函数返回值举例读出的数据一行为一个列表,列表里为一列包含该行所有数据的字符串pd.read_table()函数返回值举例
  1. .csv(comma separated values) 逗号分隔值
    .tsv(tab separated values) 制表符分隔值

  2. chunkersize是pd.read_csv()中的一个参数,可以通过指定其大小来分块读取超大文件

  3. chuncker的数据类型chuncker的数据类型
    使用for循环打印的结果
    在这里插入图片描述

在这里插入图片描述

  1. 查看表头数据,替换中文表头
  2. 对于数据,还可以观察其中的最大最小值和平均值

第二小节

  1. 数据结构
    Series 带标签的一维同构数组
    DataFrame 带标签的,大小可变的,二维异构表格
  2. 🌰SeriesDataFrame
  3. 删除还可以用 test_1.drop('a',axis=1,inplace=True) 来实现
  4. 筛选使用的逻辑符号 | & > < >= <= ==
  5. 前面数据筛选之后数据不再是连续的索引,可以使用 reset_index() 重置索引,drop=True是重新设置index,默认 False
  6. .iloc 通过行索引获取行数据,不能是字符

探索性数据分析

  1. 排序
    对于 Series Dateframe 可以调用 .sort_index() 函数进行排序
    可以指定参数 axis ascending by=['列名'] 来实现不同方式的排序
  2. 在计算在船上最大的家族有多少人时,兄弟姐妹个数一部分包含在父母子女个数里了🤔,感觉还是有点误差的
  3. 票价分析那里第一眼看出巨大的贫富差距 25%的人票价低于7.910400 而最高的票价高达512.329200
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值