datawhale-动手学数据分析task01
- 与read_csv()输出相同格式的数据
- df = pd.read_csv('train.csv',chunksize=1000)
- DataFrame的基础属性
- 行数 列数
- 列数据类型
- 数据维度
- 行索引
- 列索引
- 对象值,二维ndarray数组
- DataFrame整体情况
- 显示前10行,默认是5行
- 显示末尾几行,默认是5
- 相关系数,如行数,列数,列索引、列非空值个数,列类型,内存占用
- 快速统计结果,计数、均值、标准差、最大值、四分数、最小值
- 我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。
- 以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来
- 第100行的"Pclass"和"Sex"的数据显示出来
- 第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
- 使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
- Pandas介绍
Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。
Pandas 适用于处理以下类型的数据:
与 SQL 或 Excel 表类似的,含异构列的表格数据;有序和无序(非固定频率)的时间序列数据;带行列标签的矩阵数据,包括同构或异构型数据;任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记
🔗Pandas中文网:https://www.pypandas.cn/ - 加载数据
本次动手学数据分析使用的数据为Kaggle上的泰坦尼克项目(Titanic: Machine Learning from Disaster)
🖇️数据集下载链接:https://www.kaggle.com/c/titanic/data
Titanic: Machine Learning from Disaster
处理直接从网页下载数据外,可以直接使用命令行下载,更加快速直接; 🔸如何使用命令行下载数据: 🔹首先要安装Kaggle API,具体安装步骤请查看官方GtiHub: https://github.com/Kaggle/kaggle-api 🔹安装好后,直接在电脑终端运行:kaggle competition