2020年CCF数据科学竞赛
主要分享一些2020年的一些CCF数据科学竞赛的baseline
全网同名:代码界的小白
这个作者很懒,什么都没留下…
展开
-
最详细的Catboost参数详解与实例应用
集成学习的两大准则:基学习器的准确性和多样性。算法:串行的Boosting和并行的Bagging,前者通过错判训练样本重新赋权来重复训练,来提高基学习器的准确性,降低偏差!后者通过采样方法,训练出多样性的基学习器,降低方差。文章目录1.CatBoost简介1.1CatBoost介绍1.2CatBoost优缺点1.3CatBoost安装2.参数详解2.1通用参数:2.2默认参数2.3性能参数2.4参数调优3.CatBoost实战应用3.1回归案例3.2使用Pool加载数据集并进行预测3.3多分类案例..原创 2020-12-16 12:39:22 · 46421 阅读 · 14 评论 -
(特征工程实战)ML最实用的数据预处理与特征工程常用函数!
这里给大家一一列举在数据预处理和特征工程中经常用到的python函数模块,非常实用!1.groupby函数python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算!对于数据的分组和分组运算主要是指groupby函数的应用,具体函数的规则如下:df[](指输出数据的结果属性名称).groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)示例data.groupby(group)[featur.原创 2020-12-13 15:48:00 · 801 阅读 · 0 评论 -
记首次CCF数据算法竞赛的心得与收获(排名top1、top2%、top8%),CCF明年再会!
今年才开始学习ml和dl,dl方面学的不是很多,主要是ml的,暑假才开始学习理论知识,学习的过程中了解到国内一个比较大的开源组织DataWhale,加群里,从他们那里学到了很多,也认识了很多大佬,慢慢的开始了解竞赛,从0基础入门Kaggle,到天池再到后来的CCF比赛,短短的几个月,对数据科学竞赛有了一定的了解,希望后序的比赛和明年的CCF比赛中可以拿到前排大奖。这次CCF比赛一共参与了6个比赛,五个正式赛和一个训练赛。其中有四个结构化的比赛,有两个NLP方面的比赛,留个比赛自己真正全程参与的就3个.原创 2020-12-07 10:47:44 · 3951 阅读 · 23 评论 -
基于缺失值与异常值的分析对Lending Club数据进行预处理(有源码和数据)
任务描述:数据是机器学习的源头和根基,将高质量的数据进行特征提取输入机器学习模型中,更容易得到令人满意的结果。然而,现实世界中数据总会由于各种原因导致大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。其中,缺失值与异常值是需要重点处理的两个问题。本文源代码和数据到github下载,github地址。文章目录一、数据1数据缺失原因2数据处理方法3.数据准备二、缺失值处理1.读取数据并查看2.查看缺失值情况3.缺失值处理3.1直接删除.原创 2020-11-28 18:33:42 · 2038 阅读 · 0 评论 -
Python数据分析常用的函数,比如:groupby、merge...等
记录一些数据分析用到的函数1.groupbydf.groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)tst_click['rank'] = tst_click.groupby(['user_id'])['cli原创 2020-11-27 22:14:16 · 507 阅读 · 0 评论 -
2020CCF BDCI 企业非法集资风险预测-线上0.848(水哥的baseline),在此基础已做到线上0.848,排名前1%(参赛队伍3000+))。
首先感谢DataWhale这个组织,今年上半年在学校机器学习的过程中得知有这么个开源组织,南瓜书也是他们一起编写,看过西瓜书《机器学习-周志华》的同学应该都知道吧。感觉组织内的水哥和鱼佬baseline的分享,从他们的baseline中学到了不少。Coggle数据科学:2020企业非法集资风险水哥b站直播回放文章目录一、赛题介绍1.数据简介2.数据说明3.结果提交要求4.评测标准二、数据预处理1.分别查看每个表的数据缺失情况2.数据处理2.1数据初步处理2.2主表base_info的处理三、模型训练与.原创 2020-11-27 15:29:18 · 6729 阅读 · 20 评论 -
天池比赛---零基础入门推荐系统 - 新闻推荐【赛题理解+Baseline】
文章目录一、赛题数据1.数据表2.结果提交3.评分标准二、赛题理解1.赛题理解2.赛题简介3.数据概况三、baseline1.核心函数2.结果提交四、总结一、赛题数据如何开始一个比赛,先从分析比赛的数据开始。赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,原创 2020-11-25 23:28:43 · 1077 阅读 · 2 评论 -
CCF2020训练赛-室内用户运动时序数据分类baseline
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、赛题地址二、赛题介绍数据简介提交样例评测标准三、分析赛题和思路1.训练集和测试集大小:2.数据处理3.模型训练和预测四、所有代码五、总结前言本人也是数据科学竞赛的小白,仅仅分享一个本人的想法。一、赛题地址赛题地址没有申请CCF账号的可以先申请一下,然后参加即可!二、赛题介绍数据简介基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型,希望大家原创 2020-11-13 19:48:58 · 2027 阅读 · 15 评论