![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
学习机器学习算法中的一些零星笔记 没那么详细(公式太麻烦了) 供自己整理使用
Dive_
这个作者很懒,什么都没留下…
展开
-
频率派和贝叶斯派
x是数据,θ是参数x是数据,\theta是参数x是数据,θ是参数x=(x1,x2,x3,...,xn) x−p(x∣θ)x=(x_1,x_2,x_3,...,x_n) ~~~~~x-p(x|\theta)x=(x1,x2,x3,...,xn) x−p(x∣θ)频率派认为 θ\thetaθ 是未知常量MLE,最大似然估计认为模型是一成不变的θMLE=arg maxθP(X原创 2020-10-03 19:11:29 · 271 阅读 · 0 评论 -
神经网络:细节知识点笔记
目录1 问题1.1 梯度问题1.2 局部最小值 鞍点1.3 退化1.4 过拟合2 激活函数3 损失函数4 训练过程4.1 批量梯度下降 BGD4.2 随机梯度下降 SGD4.3 小批量梯度下降 MBGD5 优化方法6 输入输出6.1 输入 x6.2 输出 y7 权重初始化及学习率的设定1 问题1.1 梯度问题▽ulL=(Wl+1)T[▽ul+1L]⨀f′(ul)\bigtriangledown _{u^l}L=(W^{l+1})^T[\bigtriangledown _{u^{l+1}}L]\bigo原创 2020-08-24 17:31:04 · 136 阅读 · 0 评论 -
神经网络:全连接神经网络
目录1 简介1.1 神经元1.2 网络结构1.3 正向传播1.4 反向传播1 简介全连接神经网络 也称作多层感知机(MLP)1.1 神经元神经元接收输入向量xxx神经元节点有权重向量w和偏置项b 输出值为f(wTx+b)f(w^Tx+b)f(wTx+b)在经过类似线性回归之后 使用激活函数对得到值进行操作1.2 网络结构输入层:[特征维度,n]隐含层:权重矩阵 [输出维度,输入维度] 或者说[这层维度,上层维度]输出层:[类别数,n]个人对于每一层的理解就是 使用[这层维度,上层原创 2020-08-24 17:27:06 · 5934 阅读 · 0 评论 -
聚类:知识框架
目录0 简介1 性能度量2 距离度量3 聚类算法0 简介1 性能度量2 距离度量3 聚类算法原创 2020-08-22 00:01:53 · 249 阅读 · 0 评论 -
聚类:高斯混合聚类
0 简介一种概率模型高斯分布密度函数为:定义高斯混合分布为:由k个高斯分布按照各自的系数组成样本生成的过程:αi\alpha_iαi 是选择第 iii 个混合成分的概率,根据k 个先验分布选择哪个分布;按照被选择成分的概率密度函数进行采样,生成样本。1 求解...原创 2020-08-21 23:59:19 · 2320 阅读 · 0 评论 -
SVM理解
0 简介用一个超平面把正负样本分开,最大化间隔1 线性可分{min12wTwyi(wTxi+b)≥1\left\{ \begin{array}{lr} min\cfrac12w^Tw \\\\ y_i(w^Tx_i+b)\ge1\\ \end{array}\right.⎩⎪⎪⎨⎪⎪⎧min21wTwyi(wTxi+b)≥1构造L{min12wTwyi(wTxi+b)≥1\left原创 2020-08-06 15:52:50 · 136 阅读 · 0 评论 -
两种优化方法:拉格朗日乘数法 拉格朗日对偶问题
目录1 拉格朗日乘数法1.1 适用情况1.2 过程2 拉格朗日对偶问题2.1 适用情况2.2 过程2.3 对偶问题2.4 转化成对偶问题的条件1 拉格朗日乘数法1.1 适用情况二元函数 z=f(x,y)z=f(x,y)z=f(x,y)附加条件 ψ(x,y)=0\psi(x,y)=0ψ(x,y)=0目的是找z=f(x,y)z=f(x,y)z=f(x,y)在附加条件下的极值点1.2 过程构造 F(x,y,λ)=f(x,y)+λψ(x,y)F(x,y,\lambda)=f(x,y)+\lambda\原创 2020-08-06 15:51:49 · 1026 阅读 · 0 评论 -
优化方法:牛顿法
求解 g(x)=0 利用泰勒公式展开 用已知的点xt−1x^{t-1}xt−1估计xtx^txt1 一阶展开求解g(x)=0求解g(x)=0求解g(x)=0g(x)≈g(xk)+g′(xk)(x−xk)=0g(x)\approx g(x_k)+g\prime(x_k)(x-x_k)=0g(x)≈g(xk)+g′(xk)(x−xk)=0xk+1=xk−1g′(xk)g(xk)x_{k+1}=x_k-\cfrac1{g\prime(x_k)}g(x_k)xk+1=xk−g′(xk)1g(x原创 2020-07-30 22:44:02 · 122 阅读 · 0 评论 -
集成学习:XGBoost
0 简介Boosting的一种 是GBDT的扩展相比于GBDT :求解损失函数 二阶展开 牛顿法损失函数加入正则化项一般用于回归问题 弱学习器用CART树1 目标优化函数yi′y_i\primeyi′ 表示预测值yi,t′y_{i,t}\primeyi,t′ 第t次迭代对样本i的预测值弱学习器 f(x)=wq(x)f(x)=w_{q(x)}f(x)=wq(x) 其中q(x)把x映射到第i个叶子节点 wi是第i个节点的值yi,t′=yi,t−1′+ft(xi)y_{i,t}\pr原创 2020-07-30 22:43:44 · 123 阅读 · 0 评论 -
集成学习:GBDT
目录0 简介1 流程2 回归3 分类0 简介Boosting的一种 构造样本标签值 通过弱学习器学习新的样本标签一般用于回归 弱学习器用回归决策树 CART关键思想:用负梯度构造新的样本标签弱学习器来学习新的标签1 流程(1)初始化强学习器$$(2)对于弱学习器 m=1,2,3…M计算梯度 修改样本标签值为负梯度y′=−[∂L(y,f(xi))∂F(xi)]F(x)=Fm−1(x)y\prime=-[\cfrac{\partial L(y,f(x_i))}{\partial F(原创 2020-07-30 22:43:29 · 98 阅读 · 0 评论 -
集成学习:AdaBoost
0 简介Boosting的一种 关注于之前错分的样本对样本赋予权重 弱分类器也有权重1.1 强分类器强分类器由若干个弱分类器乘各自的权重组成弱分类器为决策树sgn(F(x))sgn(F(x))sgn(F(x))F(x)=∑i=1Mβif(x;γ)F(x)=\sum\limits_{i=1}^{M}{\beta_if(x;\gamma)}F(x)=i=1∑Mβif(x;γ)1 目标优化函数采用指标损失函数 e−yF(x)e^{-yF(x)}e−yF(x)需要求解的参数:弱分类器的权原创 2020-07-30 22:43:04 · 105 阅读 · 0 评论