使用Python建立市民个人收入评分卡（一）

Nick_Spider

已于 2023-10-26 21:54:13 修改

阅读量624

点赞数

分类专栏：金融机器学习文章标签：评分卡 python 预测数据分析

于 2019-08-29 15:53:17 首次发布

本文链接：https://blog.csdn.net/weixin_39198406/article/details/100133465

版权

本文旨在使用Python处理市民收入数据，通过分析连续和离散变量，识别并处理异常值，建立市民个人收入评分卡，以预测高收入群体。

摘要由CSDN通过智能技术生成

0 目标

使用预测市民是否属于高收入群体数据集,制作市民个人收入评分机制（评分卡）。
评分越高说明该市民属于高收入群体的可能性越大。

1 数据概览

在这里插入图片描述
字段不多，连续型变量有5个，离散变量有8个，Y值是二分类，1代表属于高收入群体，0代表不是高收入群体。

# 连续型变量
col_values = ["年龄", "工作天数", "投资收入", "投资损失", "教育时间"]
# 离散型变量
col_labels = ["职业类型", "省份", "教育", "家庭角色", "婚姻状况", "民族", "工作情况", "性别"]

然后加载数据：

import pandas as pd
import numpy as np
import copy
from time import time
from sklearn.linear_model import LogisticRegression
import math

# 加载数据
df = pd.read_csv("Incoming_predict_train.csv")
col_item = dict()

2 检查缺失值

# 检查是否有缺失值
col_name_list = df.columns.values
nan_result = df.isnull().sum(axis=0)
result_dict = {
   k: v for k, v in zip(col_name_list, list(nan_result))}
items = []
for k, v in result_dict.items():
    item = dict()
    item["col"] = k
    item["count"] = v
    items.append(item)
    print(item)