1.导入数据,查看数据
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data=pd.read_csv(r'H:\阿里云\个人收入水平调查分析\个人收入水平调查分析.csv')
data.head()
这里只查看前五行数据
2.查看数据的相关性
data.describe()
2.1查看数据的整体信息
data.info()
3.查看年龄的分布情况
data['年龄'].plot(kind='hist')
plt.show()
可以看出年龄在20到45之间 占有大多数
4.查看受教育的时间分布情况,
data['受教育时间'].plot(kind='hist')
plt.show()
可以看出这个时间主要分布在9到11 和13到14.5之间
5.查看资产损失情况
data['资产损失'].plot(kind='hist')
plt.show()
6.查看一周工作的时间
data["一周工作时间"].plot(kind="hist")
plt.show()
7.整理数据表
columns = data.columns.tolist()
data['收入水平']= data['收入水平'].apply(lambda x