![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 62
Alex_SCY
普通大学生记录计算机学习之路,小白的进阶之路。学习过程仅供参考,欢迎交流。
展开
-
【数据挖掘】天池挑战赛 新闻推荐
比赛网址:https://tianchi.aliyun.com/competition/entrance/531842/introduction一、项目知识点数据预处理;数据可视化;特征工程;模型选择;实验结果的评价;二、实验过程一、比赛任务分析1.赛题背景赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章2.赛题数据数据来自某新闻APP平台的用户交互数据,包括30万用户,近3原创 2021-12-18 20:47:48 · 3670 阅读 · 1 评论 -
【数据挖掘】新闻推荐比赛 Task4 特征工程
制作与用户历史行为相关特征对于每个用户, 获取最后点击的N个商品的item_id对于该用户的每个召回商品, 计算与上面最后N次点击商品的相似度的和(最大, 最小,均值), 时间差特征,相似性特征,字数差特征,与该用户的相似性特征用户和文章特征文章自身的特征, 文章字数,文章创建时间, 文章的embedding (articles表中)用户点击环境特征, 那些设备的特征(这个在df中)对于用户和商品还可以构造的特征:基于用户的点击文章次数和点击时间构造可以表现用户活跃度的特征基于文章被原创 2021-12-02 15:08:21 · 372 阅读 · 0 评论 -
【数据挖掘】新闻推荐比赛 Task3 多路召回
召回思路YouTubeDNNitemcf recall根据用户历史读过的文章,推荐相似的文章usercf recall根据用户间的相似性,推荐相似用户读过的文章冷启动问题文章冷启动文章从未被读过用户冷启动用户从未登录过多路召回基于itemcf计算的item之间的相似度sim进行的召回基于embedding搜索得到的item之间的相似度进行的召回YoutubeDNN召回YoutubeDNN得到的user之间的相似度进行的召回基于冷启动策略的召回...原创 2021-12-02 15:07:51 · 317 阅读 · 0 评论 -
【数据挖掘】新闻推荐比赛 Task2 特征工程
1. 多路召回定义所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用例如新闻推荐,召回规则可以是“热门新闻”、“作者召回”、“关键词召回”、“主题召回“、”协同过滤召回“等等。2. 读取模式debug模式抽取小数据集进行训练线下验证模式利用train数据集进行训练,利用test数据集进行验证线上模式利用train+test数据集进行训练...原创 2021-12-02 15:02:39 · 1054 阅读 · 0 评论 -
【数据挖掘】新闻推荐比赛 Task1 Baseline
Baseline 技巧baseline链接提交结果:online / offline区别online调用所有数据作为训练集offline仅调用训练集进行训练# debug模式:从训练集中划出一部分数据来调试代码def get_all_click_sample(data_path, sample_nums=10000): """ 训练集中采样一部分数据调试 data_path: 原数据的存储路径 sample_nums: 采样数目原创 2021-12-02 14:59:58 · 392 阅读 · 0 评论 -
【数据挖掘】二手汽车交易预测
一.数据探索数据集的格式如下:在这里插入图片描述特征可以分成三类:1.日期特征: regDate, creatDate2.类别特征: name, model, brand, bodyType, fuelType, gearbox, notRepairedDamage, regionCode, seller, offerType3.数值特征: power, kilometer和15个匿名特征主要关注特征的缺失率和nunique信息,主要是看有没有缺失过多或nunique太少的特征,一般情况下这两原创 2021-11-30 10:29:29 · 1356 阅读 · 1 评论 -
【数据挖掘】Kaggle泰坦尼克号分类与预测
一:题目解读1.1数据读取读取训练集的数据。data = pd.read_csv('data/train.csv')data.head()1.2字段解释PassengerId: 乘客IDSurvived: 是否生存,0代表遇难,1代表还活着Pclass: 船舱等级:1Upper,2Middle,3LowerName: 姓名Sex: 性别Age: 年龄SibSp: 兄弟姐妹及配偶个数Parch:父母或子女个数Ticket: 乘客的船票号Fare: 乘客的船票价Cabin:原创 2021-11-04 15:21:26 · 4165 阅读 · 4 评论 -
【数据挖掘】可视化分析实验
github项目地址问题1:商店客流量数据可视化1.0 文件读取1.shop = pd.read_csv('dataset/shop_payNum_new.csv', index_col=0, parse_dates=True) 2.shop.head() 1.1绘制所有便利店的10月的客流量折线图。第一步:筛选出所有10月的数据,并且保留shop_id和pay_num1.Octobor_shop = shop.iloc[shop.index.month == 10, :2] .原创 2021-10-12 15:44:17 · 1184 阅读 · 0 评论