数据挖掘:理论与算法
清华大学课程,数据挖掘:理论与算法
广慕君
勿在浮沙筑高台
展开
-
【学习笔记】《数据挖掘:理论与算法》CH5 支持向量机
支持向量机 Support Vector Machines 线性分类 在原始空间做一个映射,在新的空间中进行分类(线性分类器,分类的时候保持margin最大) Margin 间隔:能够偏离的距离 值越大,容错能力越强 求解:2/|w| Support Vector 正好卡住分界面的点 两者关系 Support Vector决定移动的范围,范围的大小叫做Margin 目标 把样本分对 yi(w⋅...原创 2019-12-22 15:41:48 · 216 阅读 · 0 评论 -
【学习笔记】《数据挖掘:理论与算法》CH4神经网络
神经网络:巨量并行,智慧无限 神经元(感知机,Perceptrons),注意常数项w0,不然总是经过原点 如何设置和调整感知机输入的权重? 梯度下降法,知错就改法(Stochastic Learning) 如何解决线性不可分问题? 线性不可分:一根线无法分出来类别 解决办法:多层感知机,把原始问题转化,将不可分转化为可分 The Sigmoid Threshold Unit sigmoid函数...原创 2019-12-19 20:58:50 · 236 阅读 · 0 评论 -
【学习笔记】《数据挖掘:理论与算法》CH3 从贝叶斯到决策树
分类问题 分类是一种有监督的学习 贝叶斯定理:头痛和流感的关系 朴素贝叶斯分类 为何朴素? 需要假设条件独立 何为条件独立? 肺癌和性别的关系,不能简单说男性得肺癌的概率大于女性,需要考虑得肺癌的条件:抽烟, 在抽烟的情况下,得肺癌的概率大于不抽烟的情况。 抛硬币问题,一枚正常硬币,一枚双面相同的硬币,抛硬币概率不同。 独立不等于不相关 避免出现概率为0? 拉普拉斯平滑:样本加1 应用...原创 2019-12-19 19:12:14 · 250 阅读 · 0 评论