![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习-天池案例
文章平均质量分 55
主要用于展示天池几种项目作为练习
架构菜芽
仰望星空观世界,脚踏实地看未来。
展开
-
天池案例-贷款违约预测(lgb)
1 案例描述赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。2 代码详情im...原创 2021-07-14 16:19:21 · 1635 阅读 · 0 评论 -
天池案例-二手车交易价格预测-回归(xgb+lgb)
1 案例描述赛题以预测二手车的交易价格为任务,评测标准:评价标准为MAE(Mean Absolute Error)。2 代码详情# 基础工具import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.special import jnfrom IPython.display i原创 2021-07-14 11:18:52 · 2403 阅读 · 0 评论 -
天池案例-Nlp新闻文本分类
1 案例描述1.1 描述 赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。1.2 评测标准评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。计算公式:2 代码详情import numpy as npimport pandas as pdfrom...原创 2021-07-14 10:11:33 · 436 阅读 · 1 评论 -
天池案例-汽车产品聚类分析
1 案例描述 说明:赛题以竞品分析为背景,通过数据的聚类,为汽车提供聚类分类。对于指定的车型,可以通过聚类分析找到其竞品车型。通过这道赛题,鼓励学习者利用车型数据,进行车型画像的分析,为产品的定位,竞品分析提供数据决策。任务:选手需要对该汽车数据进行聚类分析,并找到vokswagen汽车的相应竞品。要求选手在天池实验室中用notebook完成以上任务,并分享到比赛论坛。(聚类分析是常用的数据分析方法之一,不仅可以帮助我们对用户进行分组,还可以帮我们对产品进行分组(比如...原创 2021-07-13 10:40:18 · 2903 阅读 · 0 评论 -
天池案例-产品关联分析
1 案例描述赛题以购物篮分析为背景,要求选手对品牌的历史订单数据,挖掘频繁项集与关联规则。通过这道赛题,鼓励学习者利用订单数据,为企业提供销售策略,产品关联组合,为企业提升销量的同时,也为消费者提供更适合的商品推荐。说明:1)频繁项集、关联规则的计算会用到支持度、置信度、提升度等指标,2)频繁项集:即大于最小支持度的商品或商品组合3)关联规则:在频繁项集中,满足最小置信度,或最小提升度的推荐规则2 代码详情# %load 赛题2.pyimport pandas a...原创 2021-07-12 16:20:53 · 1719 阅读 · 1 评论 -
天池案例-用户情感可视化分析
1 案例描述1.1 案例说明赛题以网络舆情分析为背景,要求选手根据用户的评论来对品牌的议题进行数据分析与可视化。通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。1.2 字段描述1.3 效果展示[('听', 3886), ('耳机', 3576), ('好', 3318), ('可以', 2614), ('声音', 2486), ('用', 2322),...等等]词云图展示2 代码详情import ...原创 2021-07-12 15:15:16 · 1310 阅读 · 0 评论