天池
sunflowers11
这个作者很懒,什么都没留下…
展开
-
天池新闻推荐入门赛之【数据分析】Task02
数据分析主要是围绕特征分析进行展开。一般都是对特征进行简单的变化,分析各种特征对结果的影响。导包# 导入相关包%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsplt.rc('font', family='SimHei', size=13)import os,gc,re,warnings,syswarnings.fi原创 2020-11-27 23:35:37 · 137 阅读 · 0 评论 -
天池新闻推荐入门赛之【赛题理解+Baseline】Task01
赛题简介比赛地址:https://tianchi.aliyun.com/competition/entrance/531842/introduction比赛是新闻推荐场景下的用户行为预测,以新闻APP中的新闻推荐为背景,目的是根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为,即预测用户最后一次点击的新闻。该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,从中原创 2020-11-25 22:28:35 · 169 阅读 · 0 评论 -
金融风控Task5-模型融合
学习目标将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果并打卡。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程)内容介绍平均: 简单平均法 加权平均法 投票: 简单投票法 加权投票法 综合: 排序融合 log融合 stacking: 构建多层模型,并利用预测结果再拟合预测。 blending: 选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。 boosting/bagging(在Task4中已经提及,就不再原创 2020-09-27 23:22:39 · 144 阅读 · 0 评论 -
金融风控Task4-建模与调参
学习目标学习在金融分控领域常用的机器学习模型 学习机器学习模型的建模过程与调参流程代码import pandas as pdimport numpy as npimport warningsimport osimport seaborn as snsimport matplotlib.pyplot as plt"""sns 相关设置@return:"""# 声明使用 Seaborn 样式sns.set()# 有五种seaborn的绘图风格,它们分别是:darkgrid,原创 2020-09-24 23:20:47 · 259 阅读 · 0 评论 -
金融风控Task3-特征工程
学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法 学习特征交互、编码、选择的相应方法内容介绍数据预处理 缺失值的填充 时间格式处理 对象类型特征转换到数值 异常值处理 基于3segama原则 基于箱型图 数据分箱 固定宽度分箱 分位数分箱 离散数值型数据分箱 连续数值型数据分箱 特征交互 特征和特征之间组合 特征和特征之间衍生 特征编码 one-hot编码 label-encode编码 特征选择原创 2020-09-21 23:54:58 · 319 阅读 · 0 评论 -
金融风控Task2-数据分析
目的EDA(Exploratory Data Analysis)价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.了解变量间的相互关系、变量与预测值之间的存在关系。为特征工程做准备内容介绍数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值原创 2020-09-18 23:52:42 · 954 阅读 · 0 评论 -
金融风控Task1-赛题理解
赛题概述赛题链接:https://tianchi.aliyun.com/competition/entrance/531830/introduction赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集原创 2020-09-15 17:10:54 · 204 阅读 · 0 评论