机器学习超详细攻略
文章平均质量分 79
东写西读李老湿
知乎:东写西读。公众号:布吉岛青年。目前就职于某大型金融企业从事金融科技工作。重点写大数据和Python相关的文章,但又不止于技术,欢迎关注。
展开
-
机器学习超详细实践攻略(10):随机森林算法详解及小白都能看懂的调参指南
一、什么是随机森林前面我们已经介绍了决策树的基本原理和使用。因为决策树会非常细致地划分样本,如果给决策树分太多的节点,就会导致在训练集上出现过拟合,而如果不增加节点的个数,决策树的表现又不会很理想。为了解决这个两难困境,聪明的专家们想出了这样的思路:既然我没有办法增加树的深度,那我就用多棵树来做预测。这也是集成学习的思想。其实让我们换个角度想,老子说过:祸兮福之所倚,福兮祸之所伏。正是因为每棵...原创 2020-05-10 20:01:11 · 19042 阅读 · 17 评论 -
机器学习超详细实践攻略(23):三板斧干掉样本不均衡问题之3——通过集成学习方法解决样本不均衡
解决样本不均衡问题的第三种策略原创 2020-01-29 18:14:56 · 1934 阅读 · 3 评论 -
机器学习超详细实践攻略(22):三板斧干掉样本不均衡问题之2——对正负样本设置不同权重
二、通过正负样本的惩罚权重解决样本不均衡1、简单粗暴法:在算法实现过程中,给样本量比较少的类别得到的损失值赋予更高得权重,给样本量较多的类别得到的损失值赋予更低得权重,然后进行说白了就是简单粗暴地为小样本标签增加损失函数的权值,原理很简单。对于交叉损失函数来说,具体公式在:https://blog.csdn.net/weixin_42462804/article/details/998210...原创 2020-01-28 20:56:24 · 4283 阅读 · 1 评论 -
机器学习超详细实践攻略(9):手把手带你使用决策树算法与调参
一、什么是决策树既然要用决策树,那么我们首先要知道决策树的基本原理。初听到决策树这个名字的时候,我觉得他是一种最不像机器学习算法的算法。我们生活中的和决策树相关的例子比比皆是,假如你出去买东西,如果价格合适,那就买下来,如果价格太高,那就和商家讨价还价,如果商家同意打折,那就买下来,如果商家不同意便宜点,那就放下东西走人。这就会构建出下图这样的一个决策树。这不就是编程里最基本的if-el...原创 2020-01-16 22:24:47 · 3293 阅读 · 2 评论 -
机器学习超详细实践攻略(21):三板斧干掉样本不均衡问题之1——过(欠)采样
想象一下,假如今天是你作为数据分析师入职的第一天,老板交给你一个数据分析任务:通过公司已经有的信用卡用户和交易信息,预测用户未来是否会逾期还款。这个问题看似简单,实则隐藏了一个非常大的坑:据粗略估计,全国的信用卡平均不良率只有不到1%,也就是说,银行贷出100万,可能只有1万没有办法正常收回,这样,如果你拿到一个信用卡还款数据集,很大可能是这个数据集里有99%的正样本,1%的负样本,在预测的时...原创 2019-12-26 22:12:16 · 2293 阅读 · 1 评论 -
机器学习超详细实践攻略(1):盘点scikit-learn里那些有趣又有用的彩蛋级入门数据集
在机器学习算法的学习过程中,找到用来适合用来练手的数据集是我们面临的第一道门槛,毕竟俗话说得好,巧妇也难为无米之炊嘛。为此,我在知乎上写过一篇回答:机器学习需要的大量数据集从哪里找?这篇回答主要是介绍了从各个比赛平台寻找机器学习相关实战数据集的方法,目前已经获得了1.5k个赞同,看来大家对于数据集的需求还是挺旺盛的。不过,虽然这些数据集都是从实际的业务场景抽离出来的,都有着实际的义务含义,但...原创 2019-12-24 10:10:37 · 1545 阅读 · 0 评论