kaggle
文章平均质量分 53
hfzd24
这个作者很懒,什么都没留下…
展开
-
Kaggle--泰坦尼克之灾
怎么做?手把手教程马上就来,先来两条我看到的,觉得很重要的经验。印象中Andrew Ng老师似乎在coursera上说过,应用机器学习,千万不要一上来就试图做到完美,先撸一个baseline的model出来,再进行后续的分析步骤,一步步提高,所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,转载 2017-06-12 19:45:25 · 717 阅读 · 0 评论 -
kaggle干货
1.Kaggle 基本介绍Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。在 Kaggle 上,企业或者研究机构发布商业和科研难题,悬赏吸引全球的数据科学家,通过众包的方式解决建模问题。而参赛者可以接触到丰富的真实数据,解决实际问题,角逐名次,赢取奖金。诸如 Google,Facebook,Microsoft 等知名科技公司均在 K转载 2017-06-27 19:09:46 · 3588 阅读 · 1 评论 -
xgboost的优点与GBDT对比
说明一下:这部分内容参考了知乎上的一个问答—机器学习算法中GBDT和XGBOOST的区别有哪些?,答主是wepon大神,根据他的总结我自己做了一理解和补充。1.传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。 —可以通过booster [default=gbtree]设置原创 2017-08-08 11:16:00 · 6698 阅读 · 0 评论 -
xgboost中自定义损失函数的使用方法
起初以为在param里定义了就行,但屡屡报错,后来终于找到了方法。首先是metric的写法:def maxRecall(preds,dtrain): #preds是结果(概率值),dtrain是个带label的DMatrix labels=dtrain.get_label() #提取label preds=1-preds precision,recall,thr原创 2017-08-08 14:10:25 · 27020 阅读 · 2 评论