机器学习之个人小结
文章平均质量分 88
多多归纳总结,基础知识要打牢...
==樛木==
这个作者很懒,什么都没留下…
展开
-
运营效果分析:假设检验
1. 基本思想和原理:小概率事件在一次观察或试验中几乎不可能发生的事情,叫做小概率事件;小概率事件在一次试验中发生的概率叫做显著性水平。假设检验的基本思想和原理就是小概率事件,即观测小概率事件在假设成立的情况下是否会发生。一般把不能轻易接受的结论作为备择假设,需要有充分理由才能否定的结论作为原假设。如果在一次试验中,小概率事件发生了,说明假设在一定显著性水平下不可靠,则有充分的理由拒绝原假...原创 2019-04-10 09:14:14 · 740 阅读 · 0 评论 -
LDA主题模型
概率图模型LDA(Latent Dirichlet Allocation)用于推测文档的主题分布。它将文档集中的每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。1. 基础知识1.1 LDA属于贝叶斯模型LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块:后验分布=先验分布...原创 2019-04-04 16:24:22 · 994 阅读 · 0 评论 -
特征选择和共线性问题
1. 特征选择的原因提高模型稳定性的需要提高模型预测能力的需要提高运算速度和运算效率的需要2. 特征选择的过程2.1 结合业务经验先行筛选很多时间业务专家一针见血的商业敏感性可以有效缩小自变量的考察范围,准确圈定最有价值的预测变量,提高判断和筛选效率。2.2 用线性相关性指标进行初步筛选常用:皮尔逊相关系数r=∑(x−xˉ)(y−yˉ)∑(x−xˉ)2∑(y−yˉ)2r=\fr...原创 2019-03-31 18:36:37 · 3692 阅读 · 0 评论 -
最大似然估计MLE和最大后验概率MAP
最大似然估计最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。最大似然估计的一般求解过程:(1) 写出似然函数;(2) 对似然函数取对数,并整理;(3) 求导数 ;(4) 解似然方程 【例】:假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 p 是多少?我们假设7次黑球,3次红球为事件 A ,一...原创 2019-03-26 14:40:55 · 381 阅读 · 0 评论 -
【ML小结1】ML入门
评估方法:交叉验证法交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现划分数据集训练集用于训练模型参数验证集用于“训练”模型的超参数测试集用于估计模型对样本的泛化误差作用可以在一定程度上减小过拟合。可以从有限的数据中获取尽可能多的有效信息。方法留出法k折交叉验证法Bootstrapping自助采样法...原创 2018-11-19 12:48:21 · 910 阅读 · 1 评论 -
【ML小结2】信息论
信息量:不确定性大小信息量等于不确定性的大小。自信息:一件不太可能的事发生,要比一件非常可能的事发生,提供更多的信息I(x)=−logP(x)I(x)=-logP(x)I(x)=−logP(x)信息熵:量化整个概率分布中的不确定性总量H(X)=Ex∼P[I(x)]=−∑x∈XP(x)logP(x)H(X)= E_{x\sim P}[I(x)]=-\sum_{x\in X}P(x)logP(...原创 2019-03-05 09:35:48 · 324 阅读 · 0 评论 -
【ML小结3】线性回归与逻辑回归、softmax回归
1.线性回归hθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1xhθ(x)=θ0+θ1x梯度下降法损失函数:J(θ)=12m∑i=1m(hθ(xi)−yi)2J(\theta)=\frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2J(θ)=2m1∑i=1m(hθ(xi)−yi)2求偏导:∂J∂θ...原创 2018-11-17 15:39:16 · 417 阅读 · 0 评论 -
【ML小结4】深入了解SVM
1.模型表示寻找一个超平面wTx+b=0w^Tx+b=0wTx+b=0能够将训练样本正确分类,也就是满足:(1)yi(wTxi+b)=∣f(xi)∣>=1y_i(w^Tx_i+b)=|f(x_i)|>=1 \tag1yi(wTxi+b)=∣f(xi)∣>=1(1)即原创 2018-11-17 21:30:56 · 204 阅读 · 0 评论 -
【ML小结5】决策树(ID3、C4.5、CART)
顾名思义,决策树是基于树结构进行决策。1.ID3决策树以最大化信息增益为准则来选择划分属性。假设离散属性a上有V个可能的取值{a1,...,aV}\{a^1,...,a^V\}{a1,...,aV},若使用a对样本集D进行划分,则会产生V个分支节点。其中第v个分支节点包含了D中所有在属性a上取值为ava^vav的样本,记为DvD^vDv。maxGain(D,a)=Entropy(D)−En...原创 2018-11-18 11:36:50 · 233 阅读 · 0 评论 -
【ML小结6】关联分析与序列模式关联分析
一、关联分析关联分析主要是用于从数据集中发现数据项之间的关系。1. 基本概念1.1 支持度X → Y 的支持度表示项集 {X,Y} 在总项集中出现的概率:support(X→Y)=P(X,Y)support(X\rightarrow Y)=P(X,Y)support(X→Y)=P(X,Y)用于衡量同时满足X和Y的概率。1.2 置信度X → Y 的置信度表示在先决条件 X 发生的情况...原创 2019-03-04 18:59:03 · 3007 阅读 · 0 评论 -
【ML小结7】贝叶斯分类器:朴素、半朴素贝叶斯
贝叶斯分类器在预先给定代价的情况下平均风险最小的分类器。分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率。贝叶斯分类器的基础贝叶斯公式P(H∣X)=P(X∣H)P(H)P(X)P(H|X)=\frac{P(X|H)P(H)}{P(X)}P(H∣X)=P(X)P(X∣H)P(H)其中,X表示n个属性的测量描述;H为某种假设,比如假设某观察值X属于某个特定的类别C;P(X)...原创 2018-11-20 18:56:33 · 627 阅读 · 0 评论 -
【ML小结8】降维与度量学习(KNN、PCA、因子分析、LDA)
度量学习指距离度量学习,是通过特征变换得到特征子空间,通过使用度量学习,让类似的目标距离更近,不同的目标距离更远.也就是说,度量学习需要得到目标的某些核心特征(特点)。比如区分两个人,2只眼睛1个鼻子-这是共性,柳叶弯眉樱桃口-这是特点。度量学习分为两种,一种是基于监督学习的,另外一种是基于非监督学习的。1.KNN有监督学习工作机制给定测试样本,基于某种距离度量找出训练集中与其最靠...原创 2018-11-19 09:47:43 · 2571 阅读 · 2 评论 -
【ML小结9】聚类分析--k均值聚类
无监督聚类k均值聚类模型表示给定样本集D={x1,...,xm}D=\{x_1,...,x_m\}D={x1,...,xm},针对聚类所得簇划分C={C1,...,Ck}C=\{C_1,...,C_k\}C={C1,...,Ck},最小化平方误差SSE:minE=∑i=1k∑x∈Ci∣∣x−μi∣∣2min \quad E=\sum_{i=1}^k\sum_{x\in C_i}||...原创 2018-11-21 09:48:41 · 1614 阅读 · 0 评论 -
【ML小结10】集成学习
1. 集成学习的思想对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。集成学习(Ensemble learning)可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等。Q1:如何获得若干个个体学习器Q2:采用什么样的结合策略2. 集成学习-个体学习器不稳定的学习器更适合作为基学习器,因为不稳定的学习器容...原创 2019-03-07 14:43:44 · 1151 阅读 · 0 评论 -
【ML小结11】高斯混合模型GMM
1. 模型表示高斯混合模型是指具有如下形式的概率分布模型:P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)P(y∣θ)=k=1∑Kαkϕ(y∣θk)其中,αk\alpha_kαk是权重系数,满足αk>0,∑k=1Kαk=1\alpha_k>0,\sum_{k=1}^K\a...原创 2019-03-07 19:20:00 · 1351 阅读 · 2 评论 -
【ML小结12】隐马尔科夫模型HMM
1. 前言选自《数学之美》第5章:隐含马尔科夫模型HMM通信的本质就是一个编解码和传输的过程。NLP对应通信系统中的解码问题。即在已知接收端的观测信号o1,o2,...o_1,o_2,...o1,o2,...的情况下,推断出令条件概率P(s1,s2,...∣o1,o2,...)P(s_1,s_2,...|o_1,o_2,...)P(s1,s2,...∣o1,o2,...)达到最大...原创 2019-03-07 20:59:53 · 321 阅读 · 0 评论 -
【ML小结13】最大熵模型
1. 最大熵原理的定义最大熵原理是概率模型学习的一个准则。朴素表述:不要把所有的鸡蛋放在一个篮子里严谨表述:在满足约束条件的模型集合中选取熵最大的模型投资角度:风险最小信息论角度:保留最大的不确定性,熵最大2. 最大熵模型的定义3. 模型求解3.1 优化问题3.2 模型学习:极大似然估计最大熵模型的学习归结为对偶函数的极大化(极大似然估计:对数似然函数极大化)。在约...原创 2019-03-08 10:07:02 · 320 阅读 · 0 评论 -
【ML小结14】条件随机场CRF
1. 马尔科夫随机场/概率无向图模型1.1 概率无向图模型的定义概率无向图模型是由无向图表示的联合概率分布。无向图上的节点之间的连接关系表示了联合分布的随机变量集合之间的条件独立性,即马尔科夫性。因此,概率无向图模型也称为马尔科夫随机场。概率无向图模型是生成式模型,生成式模型最关心的是变量的联合概率分布。1.2 概率无向图模型的因子分解概率无向图模型的联合概率分布可以分解成无向图最大团...原创 2019-03-08 09:05:54 · 427 阅读 · 0 评论 -
机器学习专项练习笔记(持续更新)
1.卷积神经网络计算尺寸输出尺寸=(输入尺寸-filter尺寸+2*padding)/stride+1卷积向下取整,池化向上取整stride=1时,当kernel=3,padding=1或kernel=5,padding=2 卷积前后尺寸不变。2.序列模式挖掘序列:一个序列即是一个完整的信息流。每个序列由不同的元素按顺序有序排列,每个元素由不同项目(也叫事件)组成。序列...原创 2018-11-17 21:33:40 · 279 阅读 · 0 评论 -
拉格朗日乘子法和KKT条件
参考:https://www.cnblogs.com/liaohuiqiang/p/7805954.html1.无约束条件下求解最优问题【直接求偏导】【步骤】:直接对函数求偏导,令偏导为0前提:f(x)是凸函数凸函数的充要条件:如果f(x)在开凸集S上具有二阶连续偏导数,且f(x)的海塞矩阵(二阶偏导的矩阵)在S上处处半正定,则f(x)为S上的凸函数。2.等式条件下求解最优...原创 2018-11-17 11:59:01 · 487 阅读 · 0 评论