机器学习笔记
文章平均质量分 75
学习积累ing
十二十二呀
记录学习笔记
展开
-
(五)logistic回归与基于TensorFlow实现鸢尾花二元分类
李航《统计学习方法》第二版 学习笔记知识点分类算法 属于线性模型 其图形是一条S型曲线,单调增,并且定义域是(−∞ ,+∞ ),值域是(0,1) logistics回归比较两个条件概率值的大小,将X分到概率值较大的那一类 公式: 式1: 式2: 用线性回归模型的预测结果去逼近真实标记的对数几率 logistics的特点:在logistics回归模型中,输入Y=1的对数几率是输入x的线性函数,所以logistic函数又叫对数几率函数 采用梯度下降法对w,b进行更新一.原创 2022-04-17 14:38:53 · 1169 阅读 · 0 评论 -
(八)集成学习之GBDT与python代码实现
学习笔记参考:http://www.dmlearning.cn/single/a5bf33e7b2c44e499a1cb7b2d5f8fbfa.html全英文PPT,但是这是我挣扎几天后看过最通俗易懂的讲解了,打不开可以私聊我。知识点:Gradient Boosting Decision Tree:梯度提升决策树 无论是回归还是分类,都是采用CART树 策略:会用第K个CART树拟合前K-1个CART树留下的残差,从而不断缩小整个模型的误差 但在在更一般的情况下,使用负梯度 better原创 2022-04-14 20:18:14 · 2502 阅读 · 0 评论 -
(八)集成学习之提升树与python代码实现
李航《统计学习方法第二版》学习笔记知识点:提升方法是以分类树或回归树为基分类器的Boosting方法 采用加法模型与前向分步算法 对分类问题-二叉分类树 对回归问题- 二叉回归树 加法模型:, M代表树的个数,Θ表示树的参数 前向分步算法:,是当前模型 通过经验风险最小化确定下一棵决策树的参数Θ: 当采用平方误差损失函数时,其损失变为简单拟合残差 对于二元分类问题,提升树算法只需将AdaBoost算法中的基本分类器限制为二类分类器 例8.2 python代码实现并随便输入x值进..原创 2022-04-13 15:36:42 · 708 阅读 · 0 评论 -
(八)集成学习Bagging之随机森林知识点汇总与python实现
知识点:随机森林是bagging的一个特化进阶版 特化是指:随机森林的弱学习器都是决策树 进阶是指:在bagging样本随机采样的基础上,又加上了特征的随机选择 Bagging是一种有放回的重复抽样方法,各学习器之间没有依赖关系,可以并行生成 Boosting各个学习器之间是串联的关系,每一轮的训练集不变,改变的是样本的权重 Bagging+决策树=随机森林 AdaBoost+决策树=提升树 Gradient+Boosting+决策树=GBDT 随机森林的构造过程:行采样和列采样 行.原创 2022-04-10 13:12:30 · 4261 阅读 · 1 评论 -
(四)决策树与python代码实现ID3算法
李航老师《统计学习方法》第二版学习笔记知识点:决策树是一种基本的分类与回归方法,是基于树结构来进行决策的 根据损失函数最小化的原则建立决策树模型 决策树内部节点表示一个特征或属性,叶节点表示一个类 决策树可以看成if-then规则的集合 决策树的一条路径对应于划分中的一个单元 决策树常用的算法有ID3、C4.5与CART 决策树算法通常是一个递归的过程 决策树学习通常包含三个步骤:特征选择、决策树生成、决策树剪枝 信息熵表示随机变量不确定性的度量,熵越大不确定性就越大...原创 2022-04-09 15:59:49 · 1186 阅读 · 0 评论 -
(三)朴素贝叶斯与垃圾分类Python代码实现
李航老师《统计学习方法》第二版学习笔记知识点:朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类算法 属于生成模型 优点:算法逻辑简单,时空开销小 缺点:条件独立性的假设可能会导致牺牲一定的分类准确性 朴素贝叶斯的参数估计可以是极大似然估计或贝叶斯估计 贝叶斯公式: 朴素贝叶斯分类器: 极大似然估计先验概率: 极大似然估计条件概率: 贝叶斯估计先验概率:,λ=1时称为拉普拉斯平滑,K代表Y有K类 贝叶斯估计条件概率:,Sj代表特征个数...原创 2022-04-06 14:39:02 · 2636 阅读 · 0 评论 -
(二)KNN与python代码实现
李航老师《统计学习方法》第二版学习笔记知识点KNN是一种基本分类与回归方法 三个基本要素:K值的选择、距离度量、分类决策规则 直观解释:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为这个类 KNN没有显式的学习过程 KNN模型对应与基于训练数据集对特征空间的一个划分 距离度量:由不同的距离度量所确定的最近邻点是不同的,常用欧氏距离 K值的选择:K值的减小就意味着整体模型变得复杂,容易发生过拟合,K值一般取一个原创 2022-03-27 21:11:22 · 2377 阅读 · 0 评论 -
(一)感知机与python代码实现
参考李航老师的《统计学习方法》第二版知识点:感知机是二分类的线性分类模型,属于判别模型 旨在求出将训练数据进行线性划分的分离超平面,目标求得一个超平面将正负例完全正确分开 基于误分类的损失函数:L(w,b) = -∑yi(w·xi+b) 这里xi是误分类的点,损失函数是非负的,对应误分类点到分离超平面的总距离,如果没有误分类的点,损失函数的值为0 利用随机梯度下降法对损失函数进行极小化。首先任意选取一个超平面w0,b0,然后采用梯度下降法不断极小化损失函数,极小化过程不是一次使所有误分类点的.原创 2022-03-27 19:20:49 · 2820 阅读 · 2 评论