机器学习
夜是故乡明
Java后端开发工程师
展开
-
随机森林(Random Forest)算法梳理
随机训练数据随机,有放回地从N个数据随机抽样n个特征选择随机,随机选取m个特征,作为分类特征将整个数据集以矩阵形式存储,相当于随机取n行,取m列森林构造多个决策树,实践默认为100以决策树的表决结果决定随机森林的结果随机森林既能解决分类问题,也能解决回归问题(不常用,存在数值跳动问题)模型评估每次随机选择数据和特征构造一颗决策树,会存在1/e的包外数据使用这部分数据作...原创 2019-04-04 21:28:17 · 1231 阅读 · 0 评论 -
机器学习(西瓜书) 第3章 线性模型笔记
线性模型是最基本,最简单的模型,而这个世界是复杂,非线性的,我们可以基于线性模型,通过高维映射或层级结构构造非线性模型。原创 2019-05-16 21:51:28 · 258 阅读 · 0 评论 -
机器学习基石笔记(八):噪音和损失
Lecture 8: Noise and Error噪音和损失噪音,概率目标,损失函数,以及带权重的模型原创 2019-04-25 16:37:33 · 695 阅读 · 0 评论 -
机器学习基石笔记(四):学习的可行性
Lecture 4: Feasibility of Learning学习可行性在有限假设中,基于足够多的数据,机器学习演算法能学到模式。原创 2019-04-20 11:18:27 · 413 阅读 · 0 评论 -
机器学习基石笔记(三):学习的类型
Lecture 3: Types of Learning学习类型基于不同角度对机器学习进行分类原创 2019-04-19 12:06:58 · 327 阅读 · 0 评论 -
机器学习基石笔记(七):VC维度
Lecture 7: The VC DimensionVC维度model complexity , sample complexity & loose VC bound.原创 2019-04-23 15:00:05 · 1074 阅读 · 0 评论 -
机器学习基石笔记(二):学会说 是/否
Lecture 2: Learning to Answer Yes/No学会说 是/否感知器,二分类,精炼笔记原创 2019-04-17 23:38:59 · 396 阅读 · 0 评论 -
机器学习基石笔记(六):泛化理论
Lecture 6: Theory of Generalization泛化理论Bound Function 和 VC Bound原创 2019-04-22 10:18:20 · 935 阅读 · 1 评论 -
机器学习基石笔记(五):训练与测试
Lecture 5: Training versus Testing训练与测试用假设集有效数量(多项式)替换假设集大小(无限大),降低数据集的霍夫丁不等式上界。原创 2019-04-20 23:53:46 · 433 阅读 · 0 评论 -
机器学习基石笔记(一):学习的问题
Lecture 1 The Learning Problem学习问题机器学习定义,组件和流程原创 2019-04-16 18:19:49 · 546 阅读 · 0 评论 -
GBDT简单学习
GBDT(Gradient Boosting Decision Tree)看完诸位大牛的博客,还是云里雾里,暂且做个笔记,以待日后回顾再修正。GBDT主要由三个概念组成:Regression Decistion Tree(回归树,RDT),Gradient Boosting(梯度下降,GB),Shrinkage(分支)GBDT本质是回归树拟合的残差之和,每颗回归树均方差尽量小。没看到GB的...原创 2019-04-07 20:54:54 · 150 阅读 · 0 评论 -
树模型(三):XGB
算法原理XGB基于特征生成多颗回归树,每颗回归树学习相应的残差,残差之和即为样本的预测值。损失函数回归问题:MSE分类问题:对数损失函数分裂结点算法与CART类似,设定阈值,当目标函数的增益大于阈值时,进行结点分裂正则化采用L2正则化对缺失值处理为缺失值指定默认方向,而在预测中出现缺失值,划分到右子树。优缺点优点:1.能很好地处理缺失值,学习分裂方向2.支持线性分类...原创 2019-04-10 20:02:09 · 3610 阅读 · 0 评论