数据集和源码:https://github.com/JCATHoney/python-data-analysis
问题描述
描述性统计
使用auto_ins作如下分析
1、首先对loss重新编码为1/0,有数值为1,命名为loss_flag(哑变量)
2、对loss_flag分布情况进行描述分析
3、分析是否出险和年龄、驾龄、性别、婚姻状态等变量之间的关系(提示:使用分类盒须图,堆叠柱形图)
数据格式
只有一张表,auto_ins
1、使用auto_ins作如下分析,首先对loss重新编码为1/0,有数值为1,命名为loss_flag
注意读取文件时,因为含中文,要设置==‘gbk’==编码格式
# -*- coding: utf-8 -*-
"""
Created on Mon Aug 3 23:26:39 2020
@author: Away
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import seaborn as sns
import os
#%%
os.chdir(r'C:\Users\Away\Desktop\笔记\')
data = pd.read_csv("auto_ins.csv",encoding='gbk')
#%% 1、首先对loss重新编码为1/0,有数值为