技术博客
moonmilo
这个作者很懒,什么都没留下…
展开
-
实用 Kaggle 随机森林 - 如何处理 nan & 数据太少怎么办
1. nan 的处理先讲一个真事:在 Kaggle 的一个竞赛里面,是要求预测哪些大学的基金项目会得到批复而那些不会。随后一个参赛者通过其中某一列的 nan 与否特征的预测,得到了金奖。事后证明,这个学校在填入资料的时候,如果这项基金不会被批复,那么他们就不会继续填入更多信息。因此 nan 的填写与否反而由于 data leakage 的原因成为了这个竞赛里面最重要的特征。但是呢,na...原创 2019-08-14 02:33:12 · 1703 阅读 · 0 评论 -
实用 Kaggle 竞赛之 随机森林 Random Forest 的数据预处理、模型实现及可靠性评估EDA
“本文通过 Python 代码实现的方式来来介绍具体的实现。以 Python 为基础,调用各种比较基础的库,其中穿插一些Kaggle处理的建议,用引号表示。“1. 数据预处理1.1 魔术工具及所需要包魔术工具,python 的 notebook 可以自动的更新 py 文件里的 function。%load_ext autoreload%autoreload 2%mat...原创 2019-08-14 02:35:05 · 3632 阅读 · 0 评论 -
实用 Kaggle 竞赛之 随机森林 Random Forest 的评估及调参
“本文内容的诉求为实用、易上手,所以理论的内容以及公式只做少量的解释,并不着重涉及。“本节内容:1。评价函数 —— 如何评价模型的好坏2。测试集、验证集、训练集 —— 防止过拟合的验证集3。RF 的超参数设置 —— 如何 tune 模型 - 一颗决策树的形成 n_estimators - 随机森林 bootstrapping ...原创 2019-08-14 02:36:38 · 1893 阅读 · 0 评论 -
实用机器学习-随机森林如何作科研分析及讨论 EDA
“当模型建立后,如何解释和分析模型,往往是科研中必不可很少的一部分。机器学习模型往往被成为黑箱子,如何在传统领域的分析方法上进行一定解释,是我们学者们要进一步探索的课题。我们在这里列举了不同的 EDA 方式,希望能够帮助模型解释,以及 EDA 分析的进一步建立。“在随机森林模型建立之后,我们的模型可以被用于更高级的模型分析,当然这个都是在信任模型的基础上,如同科学实验中,我们通过线性回归得到一...原创 2019-08-14 09:19:46 · 392 阅读 · 0 评论 -
实用随机森林 - 针对时间序列的 kaggle 技巧
这节课我们主要讲讲:1。OOB 和 validation 的数值计算上区别2。时间序列模型建立时,如何处理 validation 和 test 与模型精度控制的小技巧3。去掉时间相关的元素 —— 消除训练集里面过拟合的特征---1。OOB 和 validation set 数值计算上的差别这两个数值有 2 点不一样:a。使用的数据不一样为了更好的得到模型验证的结...原创 2019-08-15 05:29:34 · 3608 阅读 · 0 评论 -
机器学习如何赚钱?- 垂直领域/横向领域应用的商业数据产品
今天介绍从两个角度来介绍机器学习的商业领域的产品应用:- 横向领域:在不同类型的业务中执行的操作。即涉及营销的一切。- 垂直领域:在企业内部或供应链或流程中所做的事情。---横向应用几乎每家公司都必须尝试向客户销售更多产品,因此营销很重要。因此,下图每个框都是人们在市场营销中使用机器学习的一些例子:我们举个例子 - Churn,是公司流失预测,是预测谁将要离开的公...原创 2019-08-16 03:08:55 · 1286 阅读 · 0 评论