自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Task05 排序模型

模型排序LGB的排序模型定义特征列排序模型分组(按照user_id)/trn_user_item_feats_df_rank_model.sort_values(by=['user_id'], inplace=True排序模型定义lgb_ranker = lgb.LGBMRanker(boosting_type='gbdt', num_leaves=31,...排序模型训练lgb_ranker.fit(trn_user_item_feats_df[lgb_cols], trn_use

2020-12-06 23:21:53 210

原创 Task04 特征工程

用户相关特征分析一下点击时间和点击文章的次数,区分用户活跃度分析一下点击时间和被点击文章的次数, 衡量文章热度特征用户的习惯系列习惯设备习惯时间习惯主题爱好字数偏好特征信息特征合并保存用户直接特征文章相关特征召回文章主题特征工程和数据清洗转换是比赛中至关重要的一块, 因为数据和特征决定了机器学习的上限,而算法和模型只是逼近这个上限而已,所以特征工程的好坏往往决定着最后的结果,特征工程可以一步增强数据的表达能力,通过构造新特征,我们可以挖掘出数据的更多信息,使得数据的表达能力进一步放

2020-12-03 22:59:24 38

原创 Task02 数据分析

了解数据中不同文件所包含的信息,不同数据文件之间的关系分析点击数据中用户的点击环境、点击偏好,点击的文章属性等分布分析点击数据中文章的基本属性,文章的热门程度,文章的共现情况等分析文章属性文件中(embedding文件和属性特征文件),文章的基本信息流程读取数据数据预处理数据浏览a. 用户点击日志文件_训练集b. 用户点击日志文件_测试集c. 新闻文章信息数据表d. 新闻文章embedding向量表示数据分析a. 用户重复点击b. 用户点击环境变化分析c. 用户点击新闻数量的

2020-11-27 23:02:48 51

原创 TASK1 赛道理解+BASELINE

Task01 赛题理解+BASELINE赛题理解理解赛题理解数据理解评估指标赛题分析难点关键点哪里可以挖掘特征线下验证方式防止过拟合解决思路Baseline其他优化 function欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLo

2020-11-25 15:31:25 98

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除