购买意向建模-数据清洗

最新推荐文章于 2024-04-08 09:18:31 发布

张章章Sam

最新推荐文章于 2024-04-08 09:18:31 发布

阅读量906

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16103331/article/details/89601153

版权

背景：
需要根据用户的问卷提炼特征，进行建模预测用户的购买意向。但是实际情况是一部分是历史数据嘈乱、而且问卷形式的收集数据，部分用户填写随意不具备参考意义。

# -*- coding: utf-8 -*-
"""

"""
#1.数据预处理


import pandas as pd
import os
from scipy.interpolate import lagrange

data = pd.read_csv("My Notebook.csv")

# dropna删除 nan值
# print(data.dropna())

# fillna填补默认值
# print(data.fillna(0))

data = data.fillna(0)


# 数据插补
# 一般插值法，包含拉格朗日插值法、牛顿插值法、Hermite插值、分段插值、样条插值等。这里采用拉格朗日插值的函数

#过滤异常值，将其变为空值
data[u'a.self_income'][(data[u'a.self_income']<10000) | (data[u'a.self_income']>999999)] = None
data[u'a.spouse_income'][(data[u'a.spouse_income']<10000) | (data[u'a.spouse_income']>999999)] = None
data[u'a.insurance_budget'][(data[u'a.insurance_budget']<10) & (data[u'a.insurance_budget']>0)] = data[u'a.insurance_budget']*10000
data[u'a.insurance_budget'][(data[u'a.insurance_budget']<10000) | (data[u'a.insurance_budget']>999999)] = None


data= data.dropna()
print(data)


pd.DataFrame(data).to_csv("qinxi.csv")

做了简单的过滤判断去除异常值，当然大家可以采用数据分布查看，例如聚类分析，查看离群点

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

张章章Sam CSDN认证博客专家 CSDN认证企业博客

码龄10年

251: 原创

7万+: 周排名

76万+: 总排名

98万+: 访问

: 等级

8258: 积分

161: 粉丝

128: 获赞

36: 评论

401: 收藏

私信

关注

热门文章

分类专栏

Flink重构

最新评论

web前端html+css基础项目实例
m0_73609105: 有没有图片啊
Fluxion无线攻击（搜了全网都是这一篇）
m0_65785516: 我也是这样，请问你知道解决方法了吗？只有一个假网络，根本不会断开原网络
Hibernate hibernate query language(多对多一对多)
weixin_44221288: @ApiModelProperty("继续传阅所选的范围") @ManyToMany(fetch = FetchType.LAZY) @JoinTable(name = "sys_circulation_main_other_scope", joinColumns = {@JoinColumn(name = "fd_doc_id", referencedColumnName = "fdId")}, inverseJoinColumns = {@JoinColumn(name = "fd_org_id", referencedColumnName = "fdId")}) @MetaProperty(messageKey = "sys-circulation:sysCirculationMain.fdOtherSpreadScopeIds") private List<SysOrgElementSummary> fdOtherSpreadScopeIds;
Hibernate hibernate query language(多对多一对多)
weixin_44221288: 你好，如果我的中间表没有实体怎么弄
Java类型限界
qq_36004230: 还有错的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。