2023年Mathorcup大数据竞赛B题回顾

前言

第二次打数模,刚好也是第二次打妈妈杯系列的赛题。

相比较4月份的题目,11月的赛题只有两道,一个预测类,一个图像分析类。技术有限,只能做预测类,下次争取做一道图像分析的题目。

题目分析

三个问题都是和预测相关的。

第一问根据12月至次年5月15日的数据预测5月16日至5月30日的数据,并建立预测维度分类。

第二问给了一些新的小数据序列,然后预测5月16日至5月30日的数据。

第三问给了11月份部分时间的数据,然后预测6月份部分时间的数据。

第一问

ARIMA模型

一个简单的预测问题,直接建立ARIMA模型,通过ACF图和PACF图确定p、q阶数。

(记得要把数据清洗一遍,matlab提供了一个叫filloutliers的函数,比较方便)

记得检验残差。

(原谅团队码力不足,模型有点糟糕,拟合度确实低)

在跑了模型之后记得把题目提供的准确度检验公式用起来,可以加分的

K-means聚类分析

用附件2-附件4的数据结合附件1的数据进行使用。首先要把附件1-附件4数据整合在一个excel里面,python的merge函数好像有这个功能。然后从seller_no、product_no、warehouse_no三个维度来建立K-means模型。

第二问

DTW算法

DTW算法其实有点动态规划的感觉,要建立一个dp矩阵,然后去找最相似的数据序列,即差值最小的序列。

余弦相似度检验

余弦相似度检验是在DTW基础上进行的。其实完全可以用余弦相似度来完成这道题,但是我们觉得只用一个算法是不是会显得太low(正确率太低),于是先用DTW筛一遍,再用余弦相似度再筛一遍,两次筛选应该能选出最正确的序列。

第三问

SARIMA模型

其实我和一些选B题的对这个问题都感觉很无语,就给了10天左右的数据,然后就去预测半年后的10天左右的数据,这跟直接抄上去有什么区别?他甚至没有提供10月份之前的一些数据来让我们有个趋势判断……

但是做肯定是要做的,我们采取的是和网上大部分人相同的SARIMA模型,季节性时间序列预测。该模型其实本质上就是加了一个周期性参数,其他的参数和原来的p、q、d有什么区别我一直没找到准确的说法。然后结果也比较丑陋,基本没有参考价值

(上图是题目给的数据,下图是预测出来的数据)

总结

这次比赛体验还是不错的,比上次好很多,至少有人陪博主一起受苦,有问题也能找得到人来解决。

学到了关于K-means和DTW的东西,收货是有的

争取下次去试试更高难度的图像识别!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

onepoorbird

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值