![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 87
Snoopy_Yuan
想飞到那最高最远最辽阔
展开
-
天池离线赛 - 移动推荐算法(四):基于LR, RF, GBDT等模型的预测
本文讨论如何基于模型来进行预测,使用的模型包括逻辑回归(LR)、随机森林(RF)、梯度迭代提升树(GBDT)。.原创 2017-07-22 22:47:03 · 21282 阅读 · 23 评论 -
天池离线赛 - 移动推荐算法(三):特征构建
本文讨论如何进行特征构建,为之后基于模型的方法提供有效的数据支持。原创 2017-07-14 13:43:25 · 10301 阅读 · 25 评论 -
天池离线赛 - 移动推荐算法(二):基于简单规则的预测
本文讨论如何运用一个简单的规则来进行预测,主要目的是感受一下天池赛答题评分的过程。原创 2017-06-03 10:25:37 · 6996 阅读 · 7 评论 -
天池离线赛 - 移动推荐算法(一):题目与数据解析
移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的真实用户-商品行为数据为基础来构建商品推荐模型。该题现已成为新人入门的经典演练对象,博主也希望基于该题场景,加深对机器学习相关知识的理解,积累实践经验。题目回顾关于题目和数据的介绍可访问天池官网中的:离线赛(移动推荐算法)-赛题与数据业务场景 在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推...原创 2017-05-17 23:10:16 · 16931 阅读 · 5 评论 -
数据挖掘入门:Python开发环境搭建(eclipse-pydev模式)
数据挖掘入门:Python-sklearn开发环境搭建(Eclipse-pydev模式)为便于使用Python进行机器学习与数据挖掘的学习,先安装sklearn等常用库。然后搭建出集成开发环境。由于之前常采用Eclipse IDE来开发C/C++和Java,故先考虑搭建Eclipse-pydev环境来学习使用Python。原创 2017-03-10 22:49:17 · 3452 阅读 · 0 评论 -
Kaggle滑水 - 泰坦尼克之灾(决策树)
本文以Kaggle新手习题——Titanic: Machine Learning from Disaster为场景开展实验,以此熟悉Kaggle平台。本文的源码托管于我的Github:Practice-of-Machine-Learning/code/Kaggle_Titanic/,欢迎查看交流。1.任务概述Titanic: Machine Learning from Disa...原创 2018-04-26 11:52:56 · 1493 阅读 · 0 评论 -
Kaggle滑水 - CTR预估(LR)
下面,我们结合Kaggle赛题:Avazu:Click-Through Rate Prediction,练习数据挖掘技术在CTR预估中的应用。本文内容包括赛题任务简析,以及基于LR(逻辑斯蒂回归)的初步实现。本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.任务概述CTR(Click Through Rate,点击率),是“推荐系统...原创 2018-06-15 11:28:47 · 1960 阅读 · 3 评论 -
Kaggle滑水 - CTR预估(GBDT-LR)
本文继续以Avazu-CTR赛题为场景,采用GBDT(梯度提升树)与LR(逻辑回归)相结合的方法来完成CTR预估任务;本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.GBDT-LR方案集成模型如GBDT、XGBoost等,可被用于原始特征的转换与组合,从而自动构建出新的特征用于改进数据挖掘任务。这里,我们采用业界常用的GBDT-LR方...原创 2018-06-15 11:30:18 · 4032 阅读 · 1 评论 -
Kaggle滑水 - CTR预估(FM_FFM)
本文继续以Avazu-CTR赛题为背景,尝试采用FM(Factorization Machine,因子分解机)及FFM(Field-aware Factorization Machine,场感知因子分解机)来进行CTR预估任务。本文的源码托管于我的Github:PnYuan - Kaggle_CTR,欢迎查看交流。1.概念商用推荐场景中的CTR预估工作易面临大规模稀疏数据的挑战...原创 2018-06-15 11:31:17 · 2513 阅读 · 1 评论