ML--决策树学习小结

最新推荐文章于 2023-01-29 23:01:04 发布

ssblink

最新推荐文章于 2023-01-29 23:01:04 发布

阅读量514

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/ssblink/article/details/78510307

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

决策树学习小结（1）

本文旨在完成回顾学习过程中的思考，见解存在很大局限性，同时也不会很完备，当然由于是个人描述，语言也相当不专业。作为刚入门的小白，以及接下来的6年不到的时间里，会慢慢完善自己的知识树。欢迎大家共同学习，各位大佬指点迷经，指正错误。从决策树（分类）入手，完备自己代码的能力，同时从简单模型入手有助于我完善思考问题的角度。 –2017/11/11

数据预处理

对于标称型数据存在缺省值，对于数值型数据则需要离散化。

-缺省值处理
解决两个问题。训练数据缺省：属性缺失的划分属性；测试数据缺省：属性缺失的样本划分。对于训练数据属性值缺失，可以对未缺失数据求解信息熵进一步参与最优属性的筛选；对于测试数据属性缺失，则赋权处理，即放入所有分类，带权参与后续运算。

-离散化处理
连续数据离散化，C4.5算法中采用的二分法，使用中位点作为候选划分线。然而离散化它仍然保留着连续数据的特征，即本身可作为后代节点的划分属性。对于解空间的影响，待探究。

策略理解

对于低维，数据量少的场合效果好，这也是ML算法的特点。当然从数据类型出发也可以做基本的方案。（1）决策需要专家提出；（2）本身近似无参模型，正则化后可转化成有参模型；（3）由于使用坐标轴拆分的特点，对于简单回归问题效果不佳，可考虑多变量；（4）对于其输出空间，还没有找文献去分析，DL花皮书中做出了简单的讲解。其结果为分块常数函数，不可能用来学习一个局部极大值比训练样本数量多的函数。低维问题中，这种问题相对好解决、模糊即找到最近训练点，但维数灾难这种现实问题不可忽略。【有待继续研究】（5）代价函数有平坦区域，不适合梯度优化最小化，准确的说是正则化的极大似然函数，然而这样理解就会成为NP完全问题，决策树采用的是一种启发式的方法，得到次优sub-optimal解。【对于平坦的理解有待继续研究】

基本算法、结构

核心在于对信息熵，熵增，条件熵等划分原则的理解。西瓜书中用了purity来描述这种奇妙的感觉。这里就应该搬出一大堆公式，此处省略几百万字。其实在信号系统和大物书中已经提到，最简单的理解就是它就是一种期望，对于结果出来之前对可能产生的信息量的期望。条件熵是对给定条件X下Y的条件概率分布对X的期望，某公众号提醒是期望，别求成概率……对于条件熵的理解可以去撸一串代码你就懂了。伪码蓝皮书中给的不错，但是西瓜书中的更适合初学者，这里就不贴出来，这些网上都有pdf下载，当然纸质书会让你有种白驹过隙的感觉。分而治之的基本思路，if-then结构比较适合初学者理解。

代码实现中的问题

此处省略几百万行代码，没用现成的库看效果，其实是在没有自己理解处理的数据集，同时对算法没有自己理解的改进下的结果不太好意思贴出来。
作为非计算机专业的学生碰到递归问题实在是……当然是为了重视基本功才依葫芦画瓢的，所以代码还是一行行敲，《实战》一书中贴出的ID3算法的实现很好的展示了决策树递归解决的基本思路，重在学习。当然还没实现CART，剪枝问题后面会有学习到。还有就是python可视化决策树的代码有个印象就好，对于文本的标注什么的，做的好看要多加学习。我用的anaconda,省去了许多不必要的麻烦。

联系与思考

-算法改进
分类问题的改进重点应该在划分选择上。对于非叶子节点，也有众多的论文实现了很多优化，比如说使用线性分类器，甚至感知器、神经网络。对于带权的思想也可以进一步的用在划分上等等，没有做深入的探讨，当然这是最值得探讨的问题，主要鄙人还在入门，先留下一个想象的空间。

Last but not least

首先帮舍友们还有在考研一线的同学们烧烧香，预祝母校收了这帮妖孽。
然后是最近学习的一些记录，李航的统计学习方法一刷过了一遍，当然没有深究大段的公式，想对监督学习解决问题的思路有个整体的把握，这个基本目的还是达到了。之后用《实战》依葫芦画瓢实现一遍，旨在培养自己实现算法的能力，特别是对于伪码的实现能力还有很大的提升空间！同时也看西瓜书，这本书的思想层次更高，细节在前面两本书上已经实现，所以主要从更高层次理解算法有助于结构知识体系，入世还须出世之心一个道理。还有就是一个好的公众号以及网友之间的讨论，从中能够学习到不少知识，了解一些行业的现状。但作为研究这些肯定不够的，所以才是入门。最近的行业前端论文的整理，经典书籍的学习，实际工程的锻炼都是需要的，现在这些小儿科只是万丈高楼平地起。下周等到九龙湖的校园卡，就去图书馆刷PRML，脱了好久。
Mark一下这一个月，除了完结了一个srtp，放了国庆，去健身房撸铁，也没什么成绩，慢慢爬总会站起来的哈哈哈。未完待续……