决策树
数据小斑马
浙大硕士毕业,互联网数据分析师,喜欢深入业务,也喜欢挖掘技术,希望和大家可以多多交流
展开
-
决策树①——信息熵&信息增益&基尼系数
本文主要内容:① 大白话解释何为 信息,信息熵,信息增益,信息增益率,基尼系数② 介绍决策树3种算法(ID3,C4.5,CART)的原理及区别一、基础概念① 信息能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息。比如数据分析师的工作经常是要用数据中发现信息,有一天上班你告诉老大从数据中发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息,但是如果你告诉老大...原创 2019-06-20 22:15:59 · 15845 阅读 · 0 评论 -
决策树应用实例③——银行借贷模型
银行借贷是基于分析历史按时还款、逾期或不还的用户群体的各自特征建立模型,未来借款用户只要符合符合借款要求,就给予借贷,如果不符合,则拒绝。本文将根据自建的一份包含借款人信息及银行是否借贷的数据集,创建一棵决策树,并进行预测,代码过程如下:一、导入数据# 导入库import pandas as pdimport numpy as npfrom sklearn.tree import De...原创 2019-06-22 19:45:01 · 15074 阅读 · 18 评论 -
决策树应用实例①——泰坦尼克号分类
泰坦尼克号是二分类问题,今天尝试用决策树进行分类步骤如下:1、导入数据集2、数据清洗:① 删除对分类无帮助的特征② 将某些字符串特征数值化③ 填补缺失值或删除3、对数据集用train_test_split切割成训练集和验证集4、用sklearn默认参数生成一棵普通的决策树,看训练集和验证集的评分5、通过GridSearchCV进行调参,得到最优的参数并生成最终的树6、用混淆矩阵...原创 2019-06-22 15:57:25 · 11105 阅读 · 4 评论 -
决策树⑤——Python代码实现决策树
依据现代女生的审美标准,用python代码编写一颗简单的决策树原创 2019-06-22 14:56:27 · 3661 阅读 · 0 评论 -
决策树④——决策树Sklearn调参(GridSearchCV调参及过程做图)
上一篇介绍了决策树Sklean库的参数,今天用GridSearchCV来进行调参,寻找到最优的参数一、GridSearchCV介绍① estimator: 训练器,可以是分类或是回归,这里就用决策树分类和决策树回归② param_grid: 调整的参数,可以有两种方式:a. 字典,键为参数名,值为可选的参数区间,调优过程会依次迭代所有的参数名下的值,得到每一个参数名下最优的值param...原创 2019-06-22 11:11:48 · 23504 阅读 · 3 评论 -
决策树③——决策树参数介绍(分类和回归)
前面总结了信息熵,信息增益和基尼信息的定义,以及决策树三大算法的原理及迭代过程,今天介绍下Python中机器学习Sklearn库中决策树的使用参数决策树既可以做分类,也可以做回归,两者参数大体相近,下面会先介绍分类,再对回归不一样的参数做单独说明一、分类参数1、 criterion: 特征选取方法,可以是gini(基尼系数),entropy(信息增益),通常选择gini,即CART算法,如...原创 2019-06-22 09:41:02 · 18005 阅读 · 0 评论 -
决策树②——决策树算法原理(ID3,C4.5,CART)
决策树是一种运用统计概率分析的机器学习方法。它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果,主要有ID3,C4.5和CART三种基础决策树一、ID3算法1、算法原理ID3是采用信息增益作为特征选择的标准,信息增益上一篇博客有介绍,公式如下:信息增益越大,说明此按此特征分类后越能消除信息的不...原创 2019-06-20 22:53:08 · 4767 阅读 · 0 评论 -
决策树应用实例④——淘宝&京东白条金额(回归&均方差&随机森林)
之前在京东购物,发现了一个新的支付方式,叫打白条,买东西可以先付钱,后面再分期付,这个跟买房按揭还不太一样,前者还必须缴纳30%以上的首付,而白条可以完全不用交钱。淘宝上也有类似的功能,叫花呗分期。当然也不是所有商品都能白条,白条金额也是有一个上限的。电商平台是根据什么决定用户的白条金额呢?太少了,无法达到刺激用户消费的作用,还显得平台小家子气;太多了,又无法承担用户薅羊毛一次就跑的风险。我猜...原创 2019-06-23 18:47:08 · 4637 阅读 · 0 评论