1 写在最前
考试周终于过去了,考完最后一门终于要放寒假了,四十多天的寒假听起来好像很爽…但突然想起来今年的目标还有好多没完成,好多题没刷,好多算法没总结,GitHub好久没提交了心就好累,🐶硕哪里有什么寒假。趁年前的一段时间把今年学的算法做个完整的总结吧,就首先从上的《机器学习理论与算法》开始哈。
不得不说,工大硕士的机器学习课程还是挺老的,很大一部分是归纳学习的内容。但怎么说呢,工大老一辈的教师们,在归纳学习领域的成就还是挺多,属于学校特色吧,有些老师就以符号主义者自居哈,然后讲到以前做的专家系统曾提高了大庆新油田发现的概率的时候,还是一脸自豪。
上课的时候就觉得有些概念什么的很晦涩,但是像归纳学习这样的“符号主义学习”却是最直观的、最能让人理解的。上个世纪机器学习刚刚发展起来的时候,符号学习可是主流。虽然现在以统计学习和深度学习占据了机器学习的江山,符号学习日渐式微,但是谁知道未来会怎样呢?
然后根据复习材料做了个简单的终结,记住下面这些算法,会手动执行考试就差不多了。
2 决策树-ID3算法
2.1 ID3算法:
输入:例子集(正例、反例);
输出:决策树
从树的根结点开始,每次都用“最好的属性”划分结点,直到所有结点只含一类例子为止。
2.2 相关问题
1.不相关属性问题: 预处理,预剪枝
2.不充足属性: 即属性值全相同,无法确定类别,则哪一类例子多选哪一类。
3.未知属性值问题:
1.最通常值法;2.决策树法:未知属性作为类,类作为属性;
3.贝叶斯方法:给予可能值一个概率 4. 按比例将未知属性值例子分配到各子集中
4.最优属性选择问题: 使用信息增益比率代替信息增益
5.过拟合问题: 训练和验证集法 1.及时停止树增长(预剪枝) 2.后剪枝
3 GS算法:
3.1 算法原则
输入: 例子集;
输出: 规则;
原则: (a) 从所有属性值中选出覆盖正例最多的属性值;
(b) 在覆盖正例数相同的情况下,优先选择覆盖反例少的属性值;
3.2 算法步骤
设PE,NE是正例,反例的集合。 PE’,NE’是临时正ÿ