DataCastle[猜你喜欢]推荐系统——“临兵斗列”参赛思路

1.说在前面

在看过了yin和神秘的yesboy!的赛后分享后,我们小组都从中学到了很多。算法部分已有很好的分享了,我们小组就不在班门弄斧了。我们小组就主要分享下我们在数据分析和一些赛后感言。


2 .数据分析

首先对训练数据和测试数据的数据分布进行分析,见表2-1,其中有效长度为数据项值的非空统计得到。






从表2-1可以看出,训练数据比较稀疏,并不是每个用户ID都有对应的训练数据。


接下来对训练数据和待预测数据进行绘图分析:图2-1为用户已评分物品统计图,其横轴为用户uid,纵轴对应为用户以评分物品的个数(从train.csv统计);图2-2为用户待预测物品统计图,其横轴为用户uid,纵轴对应为用户待评分物品的个数(从test.csv统计);图2-3为已评分物品频次图,其横轴为物品iid,纵轴对应为物品以评分次数(从train.csv统计);图2-4为评分时间频次图,其横轴为评分时间,纵轴对应为该时间评分的物品个数(从train.csv统计)。

1-4中的水平直线表示对应的均值,图2-3中的曲线为排序后的结果






从初步的分析得出,数据集的整体分布满足80/20规律,说明数据集分布均匀,使用常用的推荐系统方法可以得到目标结果。但与Movielens数据集相比,比赛数据集在规模上更大,包含的信息量也更多。





3 .解决方案

我们小组最初尝试使用平均值来代替预测结果,最优得分是7.59。之后使用了SVD和LFM来进行尝试,得分在7.8。在yin分享代码之后,我们使用模型结果平均加权,得到的结果是7.859。

4 .比赛回归和感言

其实我们小组花在比赛上面的时间并不多,要感谢yin分享的代码,让我们躺进了前五名。在比赛过程中我们也积累了很多想法,走过很多弯路,从最开始对推荐系统的模糊认识到思路的清晰理解,有很多值得总结的地方:

(1)  书本教材很重要,但不会涉及到复杂的或近期出现的算法,导致上升空间很小。还需要阅读开源项目已经相关的学术论文,否则很难有满意的成绩。

(2)  线下评测环境非常重要,是直接衡量算法优劣和调整算法的依据。每天的提交次数有限,要抓住宝贵的评测机会。线下评测环境也是直接评价算法拟合和过拟合的依据,所以非常重要。

(3)  做好文档记录,每种算法的实现以及提交的结果文件,都需要组好记录,方便算法模型改进和模型融合。

(4)  算法运行过程中,尽量保存中间计算结果,缩短计算时间。

(5)  比赛算法都是有相关论文的,所以比赛并不难,难的是积极思考和脚踏实地。


在DataCastle查看原文



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
datacastle训练赛中的客户流失判断问题是根据一家虚构公司的客户数据,通过分析和建模来预测客户是否会流失。该问题的目标是通过对已有的客户数据进行挖掘和分析,找出可能导致客户流失的关键因素,并建立一个预测模型来判断新客户是否会流失。 在解决这个问题时,首先需要对数据进行清洗和预处理,包括去除空值、异常值的处理以及对数据进行标准化等操作。然后进行数据探索和特征工程,通过统计分析和可视化方法,了解客户数据的分布情况和特征之间的相关性。 接着,选择合适的建模方法来构建客户流失预测模型,常用的方法包括逻辑回归、决策树、随机森林等。可以通过交叉验证和调参等方法,选择最佳的模型和参数。在建模过程中需要注意特征选择的重要性,可以使用特征重要性排序、L1正则化等方法来选择最具有预测能力的特征。 最后,利用建立好的模型对新客户进行预测,根据模型输出的概率或者分类结果来判断客户是否会流失。可以设置适当的阈值来平衡准确率和召回率,从而得到最优的预测结果。 值得一提的是,为了提高模型的预测准确性,可以采用一些策略,如对不同类别的样本进行重采样、调整类别权重等。此外,还可以通过特征工程进一步挖掘数据的内在模式,提取更多的有价值的特征。 在整个解决问题的过程中,需要综合运用数据分析、特征工程和机器学习等技术,通过不断迭代、优化模型,来实现对客户流失的准确预测和有效防范。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值