![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Kaggle学习笔记
文章平均质量分 50
BYR_jiandong
这个作者很懒,什么都没留下…
展开
-
Kaggle上关于Predict click-through rates on display ads的经典探讨,主要关于特征处理的技巧
Kaggle讨论区的链接: https://www.kaggle.com/c/criteo-display-ad-challenge/forums/t/10555/3-idiots-solution-libffmBecause I do not know how other people used FM, sorry I have no idea about the "difference".原创 2015-11-14 10:59:28 · 3475 阅读 · 0 评论 -
XGBoost cross_validation脚本学习
https://www.kaggle.com/mmueller/bosch-production-line-performance/road-2-0-4/code说明:XGBoost提供了很方便的脚本,可以进行cross_validation# -*- coding: utf-8 -*-"""@author: Faron"""import pandas as pdimport n原创 2016-11-13 11:34:07 · 1891 阅读 · 0 评论 -
XGBoost 脚本学习
https://www.kaggle.com/happycube/bosch-production-line-performance/scirpus-extreme-bayes-faron-36312/code说明:这个脚本是训练XGBoost的脚本,值得去学习,特别是XGBoost的一些参数设置 import gcimport numpy as npimport pandas as原创 2016-11-13 11:29:58 · 998 阅读 · 0 评论 -
数据分析脚本学习-从数据中,分析出哪些特征的组合能更好的预测label
https://www.kaggle.com/gaborfodor/bosch-production-line-performance/69-failure-rate说明:这个数据分析的过程值得去学习,从数据中去学习,特征取哪些值时能得到label=1的结论。或者哪些特征取哪些组合时,能得到response=1的结论。值得学习。说明:作者最后得到的结果如下:原创 2016-11-13 11:14:42 · 1692 阅读 · 0 评论 -
数据分析脚本&分析特征跟label的关系&缺失特征&缺失交叉特征&相关性热图
https://www.kaggle.com/dollardollar/bosch-production-line-performance/eda-of-important-features/comments说明:这个链接里,进行数据分析的脚本可以借鉴。有如下几个功能:1、分析特征跟label的关系2、分析,不同label的样本,其缺失的比例3、绘制相关性热图原创 2016-11-13 09:49:01 · 1815 阅读 · 0 评论 -
feature_names mismatch XGBoost错误解析
feature_names mismatch 的错误就是训练集和测试集的特征个数不一致导致的。一、a.csv:最大小标是5。所以,训练集的特征维数就是6b.csv:最大小标是4。所以,训练集的特征维数就是5所以,就是训练集和测试集的训练特征的维数不一致,就会报错。二、a.csv:最大小标是4。所以,训练集的特征维数就是5b.csv:最原创 2016-10-06 13:44:36 · 14357 阅读 · 2 评论 -
数据分析中的缺失值处理
没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。造成数据缺失的原因现实世界中的原创 2016-09-24 23:52:42 · 103172 阅读 · 6 评论 -
如何解决机器学习中数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不原创 2016-09-25 10:45:05 · 26498 阅读 · 2 评论 -
对于特征离散化,特征交叉,连续特征离散化非常经典的解释
一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变化。在训练方法确定后,对ctr预估起到决转载 2016-09-02 11:05:19 · 23123 阅读 · 5 评论 -
FM算法能够学习到原始特征的embedding表示
FM算法是CTR预估中的经典算法,其优势是能够自动学习出交叉特征.因为这种特性,FM在CTR预估上的效果会远超LR.说明:通过FM的公式可以看出,FM自动学习交叉是通过学习到每个特征xi的向量表示vi得到的.比如说,对于field A,其特征有100w种取值,如果使用one-hot编码。那么,每个特征需要使用100w维特征表示.使用了FM算法学习之后,比如说使用vi的特征维度是10原创 2016-12-10 11:07:57 · 22090 阅读 · 2 评论