第一章
🙏截图导致了巨糟糕的排版
第一小节
- 使用
os.getcwd()
时需要import os
即导入操作系统接口模块来查看当前工作路径。
pd.read_csv() | pd.read_table() |
---|---|
加载带分隔符的数据,默认分隔符是逗号(, ) | 加载带分割符的数据,默认分隔符是制表符(\t ) |
读出的数据一行为一个列表,列表里每个字符串自成一列![]() | 读出的数据一行为一个列表,列表里为一列包含该行所有数据的字符串![]() |
-
.csv
(comma separated values) 逗号分隔值
.tsv
(tab separated values) 制表符分隔值 -
chunkersize
是pd.read_csv()中的一个参数,可以通过指定其大小来分块读取超大文件 -
chuncker的数据类型
使用for
循环打印的结果
- 查看表头数据,替换中文
- 对于数据,还可以观察其中的最大最小值和平均值
第二小节
- 数据结构
Series
带标签的一维同构数组
DataFrame
带标签的,大小可变的,二维异构表格 - 🌰
- 删除还可以用
test_1.drop('a',axis=1,inplace=True)
来实现 - 筛选使用的逻辑符号
|
&
>
<
>=
<=
==
- 前面数据筛选之后数据不再是连续的索引,可以使用
reset_index()
重置索引,drop=True
是重新设置index
,默认False
.iloc
通过行索引获取行数据,不能是字符
探索性数据分析
- 排序
对于Series
Dateframe
可以调用.sort_index()
函数进行排序
可以指定参数axis
ascending
by=['列名']
来实现不同方式的排序 - 在计算在船上最大的家族有多少人时,兄弟姐妹个数一部分包含在父母子女个数里了🤔,感觉还是有点误差的
- 票价分析那里第一眼看出巨大的贫富差距 25%的人票价低于7.910400 而最高的票价高达512.329200