Course-Kaggle案例实战
文章平均质量分 61
Sarah ฅʕ•̫͡•ʔฅ
勿忘初心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lesson 1:机器学习算法、工具与流程概述
一、总结一些知识点1、对于unbalanced data的处理方法当一个data不同label数据量比例为1:2 或 2:3,这种情况时,可以直接进行model train。但是当达到10 : 1这样的比例时,则将其称之为unbalanced data,对其处理方式有如下几种:way1:可以采用“下采样”的方法,使得data不同label数据达到平衡;way2:加入label1 : lab...原创 2019-03-24 17:45:24 · 328 阅读 · 0 评论 -
Lesson2:房价预测
在处理数据之前,我们首先要观察以下各个feature的分布,方差,看看是否有outlier,如果,对其进行去噪处理。采用的方法是:利用ensemble的方法,集成多个模型的预测结果。在进行正式训练之前,我们可以将 train data 和 test data合并,一起对其进行预处理,这样,处理后的test最后便可以直接放到训练好的model中进行prediction。参考:house pri...原创 2019-03-24 17:46:14 · 163 阅读 · 0 评论 -
Lesson3:排序与CTR预估问题
一、给出CTR背景知识1、在online advertising领域,其收费方式有以下几种:CTR即click through rate,其计算公式如下:通过预测每只广告的CTR,我们可以评估向用户推荐那些“广告”最赚钱,在实际场景中,对“广告的评估”不仅仅会使用CTR,可能会结合多个指标综合考虑,比如:可能会用CTR * price来评估广告的推荐 会赚多少钱。这是因为,有些广告,cl...原创 2019-03-27 22:18:06 · 357 阅读 · 0 评论 -
Lesson 4:自然语言处理
主要总结两部分内容:NLP基本流程 和 各环节code两个NLP案例一、NLP基本流程step1:tokenize把句子拆分成单词:step2:tokenize后的words,可能一个word有很多变种,需要将他们统一为一种形式,具体如下:step3:在词性归一化中有一个问题,即对于同一个词,如:Went,他可能是go,也可能是人名Went,为了更好地...原创 2019-03-24 17:48:51 · 266 阅读 · 0 评论 -
Lesson8 金融风控大赛
项目简介:根据一堆特征,判定用户是否信誉良好,可进行借贷。这一节主要总结一下 “特征处理” 方面的知识:1、数据清洗(1)缺失值处理1)当缺失值过多的时候,如:达到90%,则有2种策略:1)直接去掉这一feature;可以将不缺省的sample打印出来,查看是否具有某一规律,比如:该feature是用户比较难填写的项目,一般填写的用户,信贷信誉都很好。2)当缺失值为40% - 60%时,...原创 2019-03-24 21:21:56 · 758 阅读 · 0 评论 -
@Lesson5:通过能源预测与分配案例实战机器学习的完整流程
寒老师的一句话,让我启发很大,数据挖掘,重点不在模型和调参,而在于“特征工程”,时刻谨记,要对数据有充足的了解和调查,才能得到好的结果。这节课讲了3个模型,其中最后一个是Homework,需要对xgboost调参(参考Lesson1模板),前2个可以类比工业界case流程,需要好好研读。下面符github地址,内含PPT,以及case notebook:https://github.com/w...原创 2019-03-24 17:44:31 · 275 阅读 · 1 评论 -
Lesson6:用深度学习的方法进行猫狗分类
这一节没什么好总结的,就涉及到一个人工处理特征的方法"Histgramcalculation",有兴趣自己看notebook吧,直接附上代码链接:https://github.com/wbqjyjy/ML-/tree/master/kaggle实战案例/cat dog classification by DNN...原创 2019-03-24 17:43:07 · 257 阅读 · 0 评论 -
Lesson7 电商推荐与销量预测
本节讲了两个案例,一个是“推荐系统”,另外一个是“store销售预测”。1、“推荐系统”案例2、“销售预测”案例在“销售预测”案例中,主要想讲一点,在xgboost中如何修改loss function,方法有2种:way1:在xgboost原码中,修改 logregobj(preds, dtrain)中,损失函数“一阶导”,“二阶导”的表达式。(相比way2,这种方式在计算loss fun...原创 2019-03-24 17:42:24 · 433 阅读 · 0 评论 -
kaggle: quora question pairs
今天看了kaggle竞赛:quora question pairs的一个解决方案,受益匪浅,在此记录一下作者的解题思路。一、quora question pairs简介首先,介绍一下quora question pairs任务:train_set格式:test_set格式:quora question pairs任务的主要内容是:训练model,判定question1和questio...原创 2019-04-13 23:12:52 · 1608 阅读 · 0 评论
分享