本系列课程适用人群:
- python零基础数据分析的朋友;
- 在校学生;
- 职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;
- 喜欢图表可视化的朋友;
系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!
本节概要:简短代码查看数据结构
视频地址:python查看数据
本节代码:
# 导入pandas工具包, 并简写为pd
import pandas as pd
# 读取数据
data1 = pd.read_excel('D:/python/课件/data/泰坦尼克数据.xlsx')
# =============================================================================
# 1 数据基本信息info: 显示变量名称,数值格式,非缺失值个数等
# =============================================================================
data1.info()
# =============================================================================
# 2 前n行,后n行,抽样:数据量很大时建议使用
# =============================================================================
temp1 = data1.head(50) # 默认是前5行
temp2 = data1.tail(50) # 默认是后5行
temp3 = data1.sample(50) # 默认是1行
# # =============================================================================
# # 3 列名:经常使用,比如写代码时不能准确记住变量名称,可用此方法获取
# # =============================================================================
data1.columns # 没有括号
# # =============================================================================
# # 4 描述性统计:默认计算数值变量的均值、标准差、最大值、最小值、分位数
# # =============================================================================
temp4 = data1.describe()
temp5 = data1.describe().round(2)
temp6 = data1.describe().round(2).T
# # =============================================================================
# # 5 缺失值个数:经常使用
# # =============================================================================
data1.isna().sum()
data1['仓位'].isnull().value_counts()
# # =============================================================================
# # 6不重复项:经常使用
# # =============================================================================
data1['登船港口'].unique()
# # =============================================================================
# # 7计数:计算分类变量个数
# # =============================================================================
data1['性别'].value_counts()