计算思维与数据科学 K-Means聚类模型信用卡用户风险评估 python连接数据库来处理数据

实验目的
1、处理信用卡数据异常值
1)读取信用卡数据;
2)丢弃逾期、呆账、强制停卡、退票、拒往记录为1、瑕疵户为2的记录;
3)丢弃呆账、强制停卡、退票为1、拒往记录为2的记录;
4)丢弃频率为5、刷卡金额不等于1的数据;
2、构造信用卡客户风险评估关键特征
1)根据特征瑕疵户、逾期、呆账、强制停卡记录、退票、拒往记录,构建历史行为特征(使用PCA降维);
2)根据特征借款余额、个人月收入、个人月开销、家庭月收入和月刷卡额,构建出经济风险情况特征;
3)根据特征职业、年龄、住家,构建出收入风险特征情况;
4)标准化历史行为特征、经济风险特征、个人收入风险特征;
3、构建K-Means聚类模型
1)根据构建的3个特征对客户进行分群,构建聚类模型,聚类数为5;
2)训练聚类模型,求出聚类中心,每类的用户数目;结合业务对客户群进行特征分析,对每个客户群体进行排名。
python连接数据库来处理数据

import pymysql
import pandas as pd
import numpy as np

conn = pymysql.connect(
    host='localhost',
    user='root',
    password='',
    db='tieba',
    charset='utf8',
       # autocommit=True,    # 如果插入数据,, 是否自动提交? 和conn.commit()功能一致。
)
print(1)
cur = conn.cursor()
#sql= "select 逾期 from sheet1 "
'''
2)丢弃逾期、呆账、强制停卡、退票、拒往记录为1、瑕疵户为2的记录;
3)丢弃呆账、强制停卡、退票为1、拒往记录为2的记录;
4)丢弃频率为5、刷卡金额不等于1的数据;

sql1="delete from sheet1 where 逾期 =1 and 呆账 =1 and 强制停卡记录 =1 and 退票 =1 and 拒往记录 =1 and 瑕疵户 =2 "
sql2="delete from sheet1 where 呆账 =1 and 强制停卡记录 =1 and 退票 =1 and 拒往记录 =2 "
sql3="delete from sheet1 where 频率 =5 and 月刷卡额 != 1 "
cur.execute(sql1)
cur.execu
  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值