电商交叉销售

最新推荐文章于 2020-11-23 21:34:23 发布

sladesha

最新推荐文章于 2020-11-23 21:34:23 发布

阅读量717

点赞数

分类专栏：机器学习应用文章标签：算法商业

本文链接：https://blog.csdn.net/slade_sha/article/details/72910866

版权

机器学习应用专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章来源：https://zhuanlan.zhihu.com/p/27304688

数据整合

核心：在有限资源下，尽可能的提供高转化率的用户群，辅助业务增长

1.商品相关性

存在商品A,B,C...，商品之间用户会存在行为信息的关联度，这边可以参考协调过滤算法中的 Item-based ，核心思想在于得出用户在不同商品之间的操作行为的差异性。

可以形成如下的特征矩阵：

商品Xi属于商品A、商品B、...中任意一种

这边相关的常见度量方式有以下几种：

a.距离衡量

包括浏览、点击、搜索等等各种行为的欧式、马氏、闵式、切比雪夫距离、汉明距离计算

b.相似度衡量

包括余弦相似度、杰卡德相似度衡量

c.复杂衡量

包括相关性衡量，熵值衡量，互信息量衡量，相关距离衡量

2.商品行为信息

探求商品及其对应行为信息的笛卡尔积的映射关系，得到一个商品+用户的行为矩阵

商品集合{商品A、商品B、...}

商品属性集合{价格、是否打折、相比其他电商平台的比价、是否缺货...}

用户行为集合{浏览次数、浏览时长、末次浏览间隔、搜索次数、末次搜索间隔...}

通过商品集合X商品属性集合X用户行为集合,形成高维的商品信息魔方，再通过探查算法，筛选优秀表现的特征，这里推荐的有pca，randomforest的importance，lasso变量压缩，相关性压缩，逐步回归压缩等，可适当选取部分方法

最后，我们会得到一个如下的东西：

3.商品购买周期

针对每一件商品，都是有它自身的生命周期的，比如，在三个月内买过冰箱的用户，95%以上的用户是不会选择二次购买的；而在1个月的节点上，会有20%的用户会选择二次购买生活用纸。所以我们需要做的一件事情就是不断更新，平台上面每个类目下面的商品的自身生命周期

这边利用，艾宾浩斯遗忘曲线和因子衰减规律：

确定lamda和b，计算每个类目对应的当前时间下的剩余价值：最高价值（通常为1）xlamdaxb

4.商品挖掘特征，用户挖掘特征

业务运营过程中，通过数据得到1.基础结论，2.挖掘结论，基础结论就是统计结论，比如昨日订单量，昨日销售量，昨日用户量，挖掘结论就是深层结论，比如昨日活跃用户数，每日预估销售量，用户生命周期等

存在如下的探索方式：

模型整合

再确定量以上四大类的数据特征之后，我们通过组合模型的方法，判断用户的交叉销售结果

1.cart regression

确保线性数据拟合完整，保证所有用户及数据中，针对线性关系的部分产业用户有高的预测能力

2.ridge regression

确保非线性密度均匀数据拟合完整，保证所有用户及数据中，针对非线性关系，且数据可被网格切分的部分产业用户有高的预测能力

3.Svm-liner

确保线性且存在大量离群点的数据拟合完整，保证所有用户及数据中，针对异常用户较多的部分产业用户有高的预测能力

4.xgboost

确保数据复杂高维且无明显关系的数据拟合完整，保证所有用户及数据中，针对维度高、数据杂乱的部分产业用户有高的预测能力

以上的组合模型并非固定，也并非一定全部使用，在确定自身产业的特点后，择优选择，然后采取投票方式产出结果即可。

附上推荐Rcode，

cart regression：

library(rpart)

fit <- rpart(y~x, data=database, method="class",control=ct, parms = list(prior = c(0.7,0.3), split = "information"));

## xval是n折交叉验证
## minsplit是最小分支节点数，设置后达不到最小分支节点的话会继续分划下去
## minbucket：叶子节点最小样本数
## maxdepth：树的深度
## cp全称为complexity parameter，指某个点的复杂度，对每一步拆分,模型的拟合优度必须提高的程度
## kyphosis是rpart这个包自带的数据集
## na.action：缺失数据的处理办法，默认为删除因变量缺失的观测而保留自变量缺失的观测。
## method：树的末端数据类型选择相应的变量分割方法:
## 连续性method=“anova”,离散型method=“class”,计数型method=“poisson”,生存分析型method=“exp”
## parms用来设置三个参数:先验概率、损失矩阵、分类纯度的度量方法（gini和information）
## cost我觉得是损失矩阵，在剪枝的时候，叶子节点的加权误差与父节点的误差进行比较，考虑损失矩阵的时候，从将“减少-误差”调整为“减少-损失”

ridge regression：

library（glmnet）

glmmod<-glmnet(x,y,family = 'guassian',alpha = 0)

最小惩罚：

glmmod.min<-glmnet(x,y,family = 'gaussian',alpha = 0,lambda = glmmod.cv$lambda.min)

1个标准差下的最小惩罚：

glmmod.1se<-glmnet(x,y,family = 'gaussian',alpha = 0,lambda = glmmod.cv$lambda.1se)

Svm-liner ：

library(e1071)

svm(x, y = NULL, scale = TRUE, type = NULL, kernel = "",degree = 3, gamma = if (is.vector(x)) 1 else 1 / ncol(x),coef0 = 0, cost = 1, nu = 0.5, subset, na.action = na.omit)

##type用于指定建立模型的类别:C-classification、nu-classification、one-classification、eps-regression和nu-regression

##kernel是指在模型建立过程中使用的核函数

##degree参数是指核函数多项式内积函数中的参数，其默认值为3

##gamma参数给出了核函数中除线性内积函数以外的所有函数的参数，默认值为l

##coef0参数是指核函数中多项式内积函数与sigmoid内积函数中的参数，默认值为0

##参数cost就是软间隔模型中的离群点权重

##参数nu是用于nu-regression、nu-classification和one-classification类型中的参数

xgboost:

library(xgboost)

xgb <- xgboost(data = data.matrix(X[,-1]), label = y, eta = 0.1,max_depth = 15, nround=25, subsample = 0.5,colsample_bytree = 0.5,seed = 1,eval_metric = "merror",objective = "multi:softprob",num_class = 12, nthread = 3)

##eta：默认值设置为0.3。步长，控制速度及拟合程度

##gamma:默认值设置为0。子树叶节点个数

##max_depth:默认值设置为6。树的最大深度

##min_child_weight:默认值设置为1。控制子树的权重和

##max_delta_step：默认值设置为0。控制每棵树的权重

##subsample：默认值设置为1。抽样训练占比

##lambda and alpha：正则化

sladesha

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
电商交叉销售

数据整合核心：在有限资源下，尽可能的提供高转化率的用户群，辅助业务增长1.商品相关性存在商品A,B,C...，商品之间用户会存在行为信息的关联度，这边可以参考协调过滤算法中的Item-based，核心思想在于得出用户在不同商品之间的操作行为的差异性。可以形成如下的特征矩阵：商品Xi属于商品A、商品B、...中任意一种这边相关的常见度量方式有以下几
复制链接

扫一扫

专栏目录