数据分析与可视化,模型交叉验证,特征工程

Matplotlib是画图库,Seaborn是一个建立在Matplotlib之上的高级数据可视化库。3,特征工程,提取时间特征,均值特征,频率特征。1,数据分析与可视化。
摘要由CSDN通过智能技术生成

1,数据分析与可视化

(1)导入库

Matplotlib是画图库,Seaborn是一个建立在Matplotlib之上的高级数据可视化库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

(2)读取文件

train_data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
test_data = pd.read_csv('用户新增预测挑战赛公开数据/test.csv')

(3)绘制图像

sns.heatmap(train_data.corr().abs(), cmap='YlOrRd')
sns.barplot(x='x7', y='target', data=train_data)

输出图像得到:

 2,模型交叉验证

  1. 导入库:导入了必要的Python库,包括Pandas(用于数据处理)、NumPy(用于数值计算)、以及Scikit-learn(用于机器学习)。
  2. 读取训练集和测试集文件:从CSV文件中读取了训练集和测试集的数据。
  3. 提取udmap特征,人工进行onehot:对'udmap'列进行one-hot编码。在这个过程中,如果'udmap'的值是'unknown',那么会返回一个全0的向量。否则,会将'udmap'列中每个键值对的键作为索引,对应的值作为该位置的值。
  4. 编码udmap是否为空:将'udmap'列是否为'unknown'的情况转换为整数(0表示不是,1表示是)。
  5. udmap特征和原始数据拼接:将经过one-hot编码的udmap特征与原始数据拼接在一起。
  6. 提取eid的频次特征:计算每个用户ID('eid')出现的频率。
  7. 提取eid的标签特征:根据每个用户ID的目标值('target')的平均值计算标签特征。
  8. 提取时间戳:将'common_ts'列转换为datetime对象,并提取小时信息。
  9. 导入模型:从Scikit-learn导入了四种常用的分类器
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值