电商推荐系统构建-CSDN博客

本文链接：https://blog.csdn.net/shanmou1782/article/details/84191099

电商推荐系统总结：
一. 数据清洗
< 1 >. 数据集中是否存在缺失值，处理缺失值。
处理数据集中缺失值的策略大概分为删除，补齐和忽略三类。组删除：将含有缺失值的属性特征删除（电商推荐中一般不采取此方法，具体看业务场景）；忽略：补齐处理只是将未知值补以我们的主观估计值，不一定完全符合客观事实，在对不完备信息进行补齐处理的同时，我们或多或少地改变了原始的信息系统。而且，对空值不正确的填充往往将新的噪声引入数据中，使挖掘任务产生错误的结果。因此，在许多情况下，我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。直接在包含空值的数据上进行数据挖掘。这类方法包括贝叶斯网络和人工神经网络等。（此部分描述借鉴）；补齐处理包括特殊值填充，回归值填充等，下面针对电商数据集进行简单举例：
（1）将连续值离散化，利用区间值的众数，中位数或者平均值来填充特征属性中缺失的部分（年龄，月收入等特征）。
（2）连续值丢失，例如身高等，可以利用其他特征训练模型回归预测出较为合理的值来填充。（其他策略不一一介绍）
总结：数据集中可能会存在多个特征都存在缺失值的情况，因此需要大量的尝试，不同的特征利用多种处理方式，然后利用交叉验证找出较为合理的组合处理方式。（经验值不能在实际操作中直接利用，数据集和模型的不同处理的方式也不同）

< 2 >.数据集中各种特征数值的处理。
（1）.数值型：调整特征的数量级/幅度调整/归一化/标准化；统计数值的Max,Min，Mean,Std等信息；离散化连续值特征；每个类别对应的变量统计值histogram(分布状况)。
（2）类别性：one-hot编码；哑变量等
（3）时间型：时间戳特征能够很好挖掘的话可以有效提高模型的效果。
（4）删除特征中的噪音点和离群点（可利用回归或者分箱的方法找到此类数据点）。
< 3 > 过滤数据，顾名思义，过滤掉用不到的特征数据，保留有用信息。
< 4 > 将有价值的数据源重新组合，提取成为新的特征信息。
< 5 > 删除无行为交互的商品和用户。
< 6 > 删除浏览量很大，但是购买量极少的用户（惰性用户或者爬虫用户）

二. 数据的理解与分析
< 1 > 掌握各个特征的含义。
< 2 > 观察数据特点，是否可用来建模。
< 3 > 可视化展示，便与分析。
< 4 > 观察数据的滞后性，用户的行为特征与时间等因素的关系（比较细致的做法）。

三. 特征提取（工程）
< 1 > 提取基于清洗后数据集有价值的特征。（可以在最新相关领域的顶级会议论文中参考，小木虫APP论文悬赏板块（非广告）在校的学生帮忙下载）
< 2 > 电商推荐中可以对用户和商品之间的行为进行特征提取（一般此类特征比较有价值，可以类推到其他业务场景）。
< 3 > 提取行为因素中的核心特征，如何提取。
< 4 > 识别瞬时行为或者累计行为。

四. 建立模型
< 1 > 使用机器学习算法进行选择和召回。
< 2 > 数据集的切分。
< 3 > 算法参数的设置以及调优（重点）。