![](https://img-blog.csdnimg.cn/20210322192449801.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习竞赛
文章平均质量分 76
以实战为线索,巩固旧知识,探索新方法,参考代码链接:https://github.com/Gavince/MachineProject
张先生-您好
学习的同时记录,记录的同时分享,分享的同时交流,交流的同时学习。
展开
-
天猫用户重复购买预测之建模优化
特征优化目的:优化数据,接近模型上限from sklearn.impute import SimpleImputerfrom sklearn.metrics import roc_auc_score as AUCfrom sklearn.model_selection import cross_val_scorefrom sklearn.ensemble import RandomForestClassifier# 是否从本地读取数据all_data_test = pd.read_csv("原创 2021-03-28 10:46:33 · 2137 阅读 · 3 评论 -
天猫用户重复购买预测之特征工程
特征工程处理数据# 全量信息处理,合并数据all_data = train_data.append(test_data)all_data = all_data.merge(user_info, on="user_id", how="left")all_data.head() user_id merchant_id label prob age_range gender原创 2021-03-22 19:20:15 · 2434 阅读 · 3 评论 -
天猫用户重复购买预测之数据分析
赛题理解赛题链接赛题背景:商家有时会在特定日期,例如Boxing-day,黑色星期五或是双十一(11月11日)开展大型促销活动或者发放优惠券以吸引消费者,然而很多被吸引来的买家都是一次性消费者,这些促销活动可能对销售业绩的增长并没有长远帮助,因此为解决这个问题,商家需要识别出哪类消费者可以转化为重复购买者。通过对这些潜在的忠诚客户进行定位,商家可以大大降低促销成本,提高投资回报率(Return on Investment, ROI)。众所周知的是,在线投放广告时精准定位客户是件比较难的事情,尤其是针对原创 2021-03-22 17:45:00 · 8082 阅读 · 5 评论 -
工业蒸汽量预测
工业蒸汽预测赛题背景火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。赛题描述经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量(回归模型)。数据说原创 2021-02-02 23:13:05 · 2089 阅读 · 0 评论 -
2018科大讯飞营销广告算法大赛
2018讯飞广告营销算法本次的最终是一个分类任务,评价指标选择为logloss,以前虽然做过一些分类性的任务,但任务本身难度不大,而本次第一个主要的问题就是数据量大,尤其是在最终的建模中,以前靠只靠cpu版本的XGBoost和Stacking就能得到一个不错的trade-off,而本次任务在Cpu的情况下,就需要花费更多的时间了,所以,重新编译安装了GPU版本的XGBoost,并首次尝试使用了LightGBM(GPU),其性能多方面优先与XGBoost,所以,最后选择使用了LightGBM模型,注:文中张原创 2020-07-21 15:48:09 · 3629 阅读 · 6 评论 -
Instacart Market Basket Analysis
Instacart Market Basket Analysiskaggle赛题链接数据理解比赛使用的数据仅包含交易数据,不包含浏览数据。主要由以下几张表构成:订单表 orders(订单ID,用户ID,所属数据集,该用户的订单序号,订单下单在星期几,订单下单所在小时,距离上一次下单过去的天数):数据粒度为一个订单事实。其中,所属数据集包含三类:a) 先验集:所有用户在历史一段时间内产生的所有订单;b) 训练集:从所有用户中抽出一部分训练用户,在考察周期内产生的所有订单;c) 测试集:除去训练用户原创 2020-06-27 09:21:11 · 1327 阅读 · 0 评论 -
Kaggle之房价预测建模
Kaggle之房价预测建模 本文主要建模环节进行讨论,使用单模型或者模型融合对处理好的数据进行了预测,主要是对自己的思路的整理,话不多说,开始。????单模型定义评判标准 由于模型最终使用均方根误差作为评判的标准,所以首先自定义了评价函数。如下:def rmse(model, x, y): """定义均方根误差""" rmse = np.sqrt(-cross_val_score(model, x原创 2020-05-22 08:55:09 · 1172 阅读 · 0 评论 -
kaggle之泰坦尼克之灾
Kaggle之泰坦尼克之灾第一次参加kaggle比赛,在这里主要记录自己的一些心得,主要免得自己忘记了。话不多说,进入正题。????难点一:年龄值缺失值? 对于缺失值的处理,如果缺失值占总体样本比例不大,可以考虑删除缺失的样本,因为这些缺失的样本对最后的预测的影响较小,如果缺失值较多,则1)连续性数据,用均值进行填补。2)离散性数据,使用众数进行填补。当然,除此之外可以用算法进行的填...原创 2020-04-12 11:46:11 · 227 阅读 · 0 评论