用户购买行为预测—机器学习实现

用户购买行为预测—机器学习实现

数据集探索分析(EDA)

无论在工作还是参加数据科学竞赛时,当我们拿到一份新的数据集,首先需要对数据进行探索性分析(EDA)。本次用户购买预测的数据集是典型的时间序列数据,往往用于处理一些有日期的业务流水。类似的场景有预测未来商品的销量、预测设备是否故障等。

对于时间序列数据的EDA,一般可以从以下几方面着手:

  • 数据集的整体体量
  • 是否有缺失值、异常值等脏数据
  • 数据的趋势性特征
  • 数据的分布情况
    在这里插入图片描述

引入工具包

import numpy as np  # linear algebra
import pandas as pd  
from datetime import datetime, date, timedelta
from scipy.stats import skew  # for some statistics
from scipy.special import boxcox1p
from scipy.stats import boxcox_normmax
from sklearn.linear_model import ElasticNetCV, LassoCV, RidgeCV, Ridge, Lasso, ElasticNet
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor, RandomForestClassifier
from sklearn.feature_selection import mutual_info_regression
from sklearn.svm import SVR, LinearSVC
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.preprocessing import RobustScaler, LabelEncoder
from sklearn.model_selection import KFold, cross_val_score, train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
import os
import re
import seaborn as sns
import matplotlib.pyplot as plt
import time
from itertools import product
import datetime as dt
import calendar
import gc

RANDOM_SEED = 42
# 引入中文字体
from matplotlib.font_manager import FontProperties
myfont = FontProperties(fname="/home/aistudio/NotoSansCJKsc-Light.otf", size=12)

加载、分析数据集

加载数据集

PATH = './data/data19383/'
train = pd.read_csv(PATH + 'train.csv')
test  = pd.read_csv(PATH + 'submission.csv').set_index('customer_id')

对于特别大的文件,我们需要做一些内存检查:

# 训练集文件
mem_train = train.memory_usage(index=True).sum()
mem_test = test.memory_usage(index=True).sum()
print(u"训练集使用内容 "+ str(mem_train/ 1024**2)+" MB")
print(u"测试集使用内存 "+ str(mem_test/ 1024**2)+" MB")

下面是对数据集的基本信息分析:

train.info()
summary_stats_table(train)

接下来我们对一些数据类型进行处理,以优化内存使用:

# 处理id字段
train['order_detail_id'] = train['order_detail_id'].astype(np.uint32)
train['order_id'] = train['order_id'].astype(np.uint32)
train['customer_id'] = train['customer_id'].astype(np.uint32)
train['goods_id'] = train['goods_id'].astype(np.uint32)
train['goods_class_id'] = train['goods_class_id'].astype(np.uint32)
train['member_id'] = train['member_id'].astype(np.uint32)

# 处理状态字段,同时处理空值,将空值置为0
train['order_status'] = train['order_status'
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OverlordDuke

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值