ML--决策树学习小结

决策树学习小结(1)

本文旨在完成回顾学习过程中的思考,见解存在很大局限性,同时也不会很完备,当然由于是个人描述,语言也相当不专业。作为刚入门的小白,以及接下来的6年不到的时间里,会慢慢完善自己的知识树。欢迎大家共同学习,各位大佬指点迷经,指正错误。从决策树(分类)入手,完备自己代码的能力,同时从简单模型入手有助于我完善思考问题的角度。 –2017/11/11

数据预处理

  • 对于标称型数据存在缺省值,对于数值型数据则需要离散化。

-缺省值处理
解决两个问题。训练数据缺省:属性缺失的划分属性;测试数据缺省:属性缺失的样本划分。对于训练数据属性值缺失,可以对未缺失数据求解信息熵进一步参与最优属性的筛选;对于测试数据属性缺失,则赋权处理,即放入所有分类,带权参与后续运算。

-离散化处理
连续数据离散化,C4.5算法中采用的二分法,使用中位点作为候选划分线。然而离散化它仍然保留着连续数据的特征,即本身可作为后代节点的划分属性。对于解空间的影响,待探究。

策略理解

  • 对于低维,数据量少的场合效果好,这也是ML算法的特点。当然从数据类型出发也可以做基本的方案。(1)决策需要专家提出;(2)本身近似无参模型,正则化后可转化成有参模型;(3)由于使用坐标轴拆分的特点,对于简单回归问题效果不佳,可考虑多变量;(4)对于其输出空间,还没有找文献去分析,DL花皮书中做出了简单的讲解。其结果为分块常数函数,不可能用来学习一个局部极大值比训练样本数量多的函数。低维问题中,这种问题相对好解决、模糊即找到最近训练点,但维数灾难这种现实问题不可忽略。【有待继续研究】(5)代价函数有平坦区域,不适合梯度优化最小化,准确的说是正则化的极大似然函数,然而这样理解就会成为NP完全问题,决策树采用的是一种启发式的方法,得到次优sub-optimal解。【对于平坦的理解有待继续研究】

基本算法、结构

  • 核心在于对信息熵,熵增,条件熵等划分原则的理解。西瓜书中用了purity来描述这种奇妙的感觉。这里就应该搬出一大堆公式,此处省略几百万字。其实在信号系统和大物书中已经提到,最简单的理解就是它就是一种期望,对于结果出来之前对可能产生的信息量的期望。条件熵是对给定条件X下Y的条件概率分布对X的期望,某公众号提醒是期望,别求成概率……对于条件熵的理解可以去撸一串代码你就懂了。伪码蓝皮书中给的不错,但是西瓜书中的更适合初学者,这里就不贴出来,这些网上都有pdf下载,当然纸质书会让你有种白驹过隙的感觉。分而治之的基本思路,if-then结构比较适合初学者理解。

代码实现中的问题

  • 此处省略几百万行代码,没用现成的库看效果,其实是在没有自己理解处理的数据集,同时对算法没有自己理解的改进下的结果不太好意思贴出来。
    作为非计算机专业的学生碰到递归问题实在是……当然是为了重视基本功才依葫芦画瓢的,所以代码还是一行行敲,《实战》一书中贴出的ID3算法的实现很好的展示了决策树递归解决的基本思路,重在学习。当然还没实现CART,剪枝问题后面会有学习到。还有就是python可视化决策树的代码有个印象就好,对于文本的标注什么的,做的好看要多加学习。我用的anaconda,省去了许多不必要的麻烦。

联系与思考

-算法改进
分类问题的改进重点应该在划分选择上。对于非叶子节点,也有众多的论文实现了很多优化,比如说使用线性分类器,甚至感知器、神经网络。对于带权的思想也可以进一步的用在划分上等等,没有做深入的探讨,当然这是最值得探讨的问题,主要鄙人还在入门,先留下一个想象的空间。

Last but not least

  • 首先帮舍友们还有在考研一线的同学们烧烧香,预祝母校收了这帮妖孽。
  • 然后是最近学习的一些记录,李航的统计学习方法一刷过了一遍,当然没有深究大段的公式,想对监督学习解决问题的思路有个整体的把握,这个基本目的还是达到了。之后用《实战》依葫芦画瓢实现一遍,旨在培养自己实现算法的能力,特别是对于伪码的实现能力还有很大的提升空间!同时也看西瓜书,这本书的思想层次更高,细节在前面两本书上已经实现,所以主要从更高层次理解算法有助于结构知识体系,入世还须出世之心一个道理。还有就是一个好的公众号以及网友之间的讨论,从中能够学习到不少知识,了解一些行业的现状。但作为研究这些肯定不够的,所以才是入门。最近的行业前端论文的整理,经典书籍的学习,实际工程的锻炼都是需要的,现在这些小儿科只是万丈高楼平地起。下周等到九龙湖的校园卡,就去图书馆刷PRML,脱了好久。
  • Mark一下这一个月,除了完结了一个srtp,放了国庆,去健身房撸铁,也没什么成绩,慢慢爬总会站起来的哈哈哈。未完待续……
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值