数据分析之数据查看1

小白学习记录

已于 2022-11-01 21:48:03 修改

阅读量1k

点赞数

分类专栏：数据分析代码文章标签：数据分析数据挖掘

于 2022-01-09 15:11:13 首次发布

本文链接：https://blog.csdn.net/feverfew1/article/details/122394025

版权

数据分析代码专栏收录该内容

19 篇文章 3 订阅

订阅专栏

动手学数据分析

第一章：数据载入及初步观察
- 1.数据集下载
- 2.数据查看

以泰坦尼克号数据为例

第一章：数据载入及初步观察

1.数据集下载

数据集下载 https://www.kaggle.com/c/titanic/overview

2.数据查看

import pandas as pd
import numpy as np

# 0.读取数据，读取的时加表头
featureNames=["乘客ID","是否幸存","乘客等级(1/2/3等舱位)","乘客姓名","性别","年龄","堂兄弟/妹个数","父母与小孩个数", "船票信息","票价","客舱","登船港口"]
data=pd.read_csv('train.csv'，names=featureNames,header=0,encoding='utf-8',sep='\t')

# 1.查看训练集特征信息，特征筛选由训练集为基准
stats = []
for col in data.columns:
    stats.append((col,data[col].nunique(), data[col].isnull().sum() * 100 / data.shape[0],                data[col].value_counts(normalize=True, dropna=False).values[0] * 100, data[col].dtype))
stats_df = pd.DataFrame(stats, columns=['Feature', 'Unique_values', 'Percentage of missing values',
                                        'Percentage of data that appears the most', 'type'])
stats_df.sort_values('Percentage of missing values', ascending=False, inplace=True) # 排序
stats_df.to_csv(path+'Percentage of missing values.csv', index=None)

# 2.简略观察数据(head()+shape)
#显示全部列
pd.set_option('display.max_columns', None)  
#显示全部行
pd.set_option('display.max_row', None) 
data.head().append(data.tail()) #初步了解数据的情况

# 3.数据形状与数据基本信息
print(data.shape)
print(data.info())  # 数据类型，以及缺失值分布

# 4.查看是否有缺失值,总共有几个
data.isnull().sum()

# 5.查看dataframe的列名与行名，以及值
data.index # 列名
data.columns # 行名
data.values # 值

# 6.查看缺失列或者异常列的值
data['性别'].value_counts()

# 7.删除无用行
##法一：
del data["登船港口"]
##法二
data.drop(by=["登船港口"],axis=1,inplace=True)

# 8.隐藏["船票信息","票价","客舱"]三列，专注观看其他列
data.drop(["船票信息","票价","客舱"],axis=1)  # 不取代就是隐藏

# 9.筛选数据
## a。筛选出年龄小于50大于10人的数据
newdata=data[(data['年龄']>10)&(data['年龄']<50)]
## b。使用loc/iloc方法将newdata的数据中第100，105，108行的"乘客等级(1/2/3等舱位)","乘客姓名","性别"的数据显示出来
newdata.iloc[[100,105,108],[2,3,4]]
newdata.loc[[100,105,108],["乘客等级(1/2/3等舱位)","乘客姓名","性别"]]

# 10.给内容或者索引排序，分析一：
newdata.sort_index() #索引行升序排序
newdata.sort_index(axis=1) #索引列升序排序

newdata.head(20).sort_values(by=['乘客等级(1/2/3等舱位)','性别','年龄'],ascending=True) #原数据按舱位，年龄、性别降序排列

# 11.分析二：计算出在船上最大的家族（‘兄弟姐妹个数’+‘父母子女个数’）有多少人？
#代码
print(max(newdata["堂兄弟/妹个数"]+newdata["父母与小孩个数"]))
print((newdata["堂兄弟/妹个数"]+newdata["父母与小孩个数"]).idxmax(axis=0)) #索引是159的人家族最庞大，人数是10人

# 12.通过df.describe()分析
newdata.describe()
'''
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
'''
#代码
data['票价'].describe()
data['年龄'].describe()


# 15.保存处理后的数据
data.to_csv('data.csv',index=False) # 不加索引

排序10分析：乘客一等舱有4个，幸存有3个，均是女性；二等舱3人，幸存者3人，女性2人，男性1人；三等舱13人，幸存者4人均是女性，男性均死亡

说明：同等情况下，说明乘客舱位等级越高越容易存活，女性更容易存活

排序12分析：

一共有891个有效数据，平均值32.2，标准差49.69，说明波动大，票价不稳定，票价区间为【0，512】，有25%的票价低于7.91，50%的票价低于14.45，75%的票价低于31

分析，有效年龄数据714个；平均年龄29岁；标准差14.5，波动不小，说明老人孩子都有；最小的0岁，最大的80岁；有25%的人小于20岁，50%的人小于28岁，75%的人小于38岁；

说明：小孩和青壮年居多

小白学习记录

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析之数据查看1

动手学数据分析以泰坦尼克号数据为例第一章：数据载入及初步观察1.数据集下载数据集下载 https://www.kaggle.com/c/titanic/overview2.数据查看import pandas as pdimport numpy as np# 1.读取数据，读取的时加表头data=pd.read_csv('train.csv'，names=["乘客ID","是否幸存","乘客等级(1/2/3等舱位)","乘客姓名","性别","年龄","堂兄弟/妹个数","父母与小孩个数"
复制链接

扫一扫

专栏目录