机器学习
机器学习
車輪の唄
atarik@163.com
展开
-
判别式模型与生成式模型
判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。常见的判别式模型有 线性回归模型、线性判别分析、支持向量机SVM、神经网络等。生成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi常见生成式模型:混合高斯模型,估计了不同输入和类别...原创 2019-11-08 10:42:59 · 445 阅读 · 0 评论 -
viterbi分词和viterbi求解hmm的区别
viterbi: 1个问题的最优解是由最优的子问题的最优解构成到B的最短路径只取决于节点A的最短路径以及A到B的最短路径分词情况, 一个节点有多个前驱节点时,可能的情况是n(多个前驱节点个数)x1(该节点是确定的,有且仅为1)如下, "成"有两个候选前驱节点"合","结合"分词过程中, 保证每个节点只有一个前驱节点(有多个情况下使用viterbi求解最优的一个,求解方法是从s开...原创 2018-06-26 16:31:56 · 739 阅读 · 0 评论 -
基于条件概率分类的算法--最大熵模型
关于使用拉格朗日对偶求解最优解问题详解:最大熵模型:给定数据集,特征函数fi(x,y),i=1,2…,n,根据经验分布得到满足约束集的模型集合C:MaxEnt 模型的求解MaxEnt 模型最后被形式化为带有约束条件的最优化问题,可以通过拉格朗日乘子法将其转为无约束优化的问题,引入拉格朗日乘子:, 定义朗格朗日函数L(P,w):现在问题转...原创 2018-06-27 19:11:37 · 1901 阅读 · 0 评论 -
逻辑斯蒂回归与感知机异同--损失函数
逻辑斯蒂回归和感知机的异同:两类都是线性分类器;损失函数两者不同:逻辑斯蒂回归使用极大似然(对数损失函数),感知机使用的是均方损失函数(即错误点到分离平面的距离,最小化这个值)逻辑斯蒂比感知机的优点在于对于激活函数的改进。前者为sigmoid function,后者为阶跃函数。这就导致LR是连续可导,而阶跃函数则没有这个性质。LR使得最终结果有了概率解释的能力(将结果限制在0-...原创 2019-05-16 12:25:34 · 2043 阅读 · 0 评论 -
支持向量机
一、简介支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当训练样本线性不可分时,通过核技巧和软间隔最大...原创 2019-05-17 11:07:38 · 301 阅读 · 0 评论 -
条件随机场--模板生成
训练数据和测试数据的格式:如上所示,”He reckons the current account deficit will narrow to only #1.8 billion in September .”代表一个训练句子xx,而CRF要求将这样的句子拆成每一个词一行并且是固定列数的数据,其中列除了原始输入,还可以包含一些其他信息,比如上面的例子第二列就包含了POS信息,最后一列是L...原创 2019-05-26 16:48:26 · 473 阅读 · 0 评论 -
CRF++训练详解
流程概述:1. 生成特征函数2. 构建概率图3. 计算node和path的代价:node代价计算即该node对应的所有特征函数权重;path代价即该path对应的所有特征函数权重之和(node和path是有特定的label的)4. 前向-后向算法计算alpha和beta, 计算期望以上都是针对某个训练样本以下是针对所有样本5. 计算梯度g(w)(所有训练样本的期望-1)...原创 2019-05-26 17:03:21 · 3337 阅读 · 0 评论 -
TextRank做关键词提取
TextRank的灵感来源于PageRank算法,这是一个用作网页重要度排序的算法。并且,这个算法也是基于图的,每个网页可以看作是一个图中的结点,如果网页A能够跳转到网页B,那么则有一条A->B的有向边。这样,我们就可以构造出一个有向图了。然后,利用公式:经过多次迭代就可以获得每个网页对应的权重。下面解释公式每个元素的含义:能够跳转到的页面,在图中对应出度的点。...原创 2019-05-30 20:49:47 · 3592 阅读 · 0 评论 -
L1 L2正则化
在机器学习算法中,如果我们要寻找一个模型去尽量拟合所以训练数据,使误差最小,那么对于新的数据很可能就会出现预测准确率不高,也就是说模型的泛化能力较差,尤其在回归分类算法,比如线性回归,逻辑回归,神经网络等,由于模型尽量去拟合训练数据,对训练数据得拟合程度很高,但模型是用来做预测的,对新数据的预测能力才是评估一个模型的标准。比如两个模型 M1: 0.1x1+0.2w2+0.3w3=y M2: 100...原创 2019-05-29 12:08:47 · 343 阅读 · 0 评论 -
概率图(三)--最大熵马尔科夫模型
最大熵模型最大熵模型属于log-linear model,在给定训练数据的条件下对模型进行极大似然估计或正则化极大似然估计:其中,为归一化因子,w为最大熵模型的参数,fi(x,y)为特征函数——描述(x,y)的某一事实具体推导参见:https://blog.csdn.net/asdfsadfasdfsa/article/details/80833781最大熵马尔科夫模型H...原创 2019-06-14 13:35:35 · 847 阅读 · 0 评论 -
支持向量机的SMO算法
http://www.cnblogs.com/pinard/p/6111471.htmlhttps://www.cnblogs.com/xxrxxr/p/7538430.htmlhttps://blog.csdn.net/weixin_42398658/article/details/83271304(****)原创 2019-05-19 15:04:57 · 322 阅读 · 0 评论 -
平均感知机实现词性标注
1.AveragedPerceptron.pyclass AveragedPerceptron(object): '''An averaged perceptron, as implemented by Matthew Honnibal. See more implementation details here: http://honnibal.wordpr...原创 2019-04-17 11:37:47 · 1132 阅读 · 0 评论 -
梯度下降算法原理
下山问题假设我们位于黄山的某个山腰处,山势连绵不绝,不知道怎么下山。于是决定走一步算一步,也就是每次沿着当前位置最陡峭最易下山的方向前进一小步,然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去,一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。首先理解什么是梯度?通俗来说,梯度就是表示某一函数在该点处的方向导数沿着该方向取得较大值,即函数在当前位置的导数。...原创 2019-04-17 11:29:54 · 433 阅读 · 1 评论 -
前向-后向算法实例
已知HMM模型参数:转移概率矩阵A:0.50.20.30.30.50.20.20.30.5混淆矩阵B:0.50.50.40.60.70.3初始概率:π=(0.2 , 0.4 , 0.4)求解:三次取球颜色为(红、白、红)的概率P(O|λ)提示:盒子相当于三种隐状态,两种颜色的球相当于观测情况,观测序列由(红、白、红)给出(1)计算初值(2)递推计算(3)终止条件关于后向算法,直接以6.2盒子(隐)...原创 2018-07-04 15:12:16 · 4070 阅读 · 2 评论 -
概率图(二)--条件随机场与概率无向图
有向图与无向图有向概率图模型或贝叶斯网络:因果关系无向图模型或马尔科夫随机场:关联关系有向图模型与无向图模型的对比:1 共同之处将复杂的联合分布分解为多个因子的乘积2 不同之处有向图模型因子是概率分布、无需全局归一(有向图的联合概率分布是根据因果关系,从前乘到后, 参考最大熵马尔科夫模型:https://blog.csdn.net/asdfsadfasdfsa...原创 2018-06-30 23:06:03 · 729 阅读 · 0 评论 -
概率图(一)--HMM与CRF对比
先给出二者对比:1.HMM是生成模型,CRF是判别模型2.HMM是概率有向图,CRF是概率无向图3.HMM求解过程可能是局部最优,CRF可以全局最优(这条貌似是和最大熵马尔科夫模型对比的)4.CRF 的特征可以囊括更加广泛的信息:HMM 基于“上一状态to当前状态”的转移概率以及“当前状态to当前观测”的释放概率,使得当前位置的词(观测)只可以利用当前的状态(词性)、当前位置的状态...原创 2018-06-14 00:01:09 · 2683 阅读 · 0 评论 -
基于条件概率分类的算法--逻辑斯谛回归
逻辑斯蒂回归的本质就是最大似然估计https://blog.csdn.net/sinat_29957455/article/details/78944939https://blog.csdn.net/gwplovekimi/article/details/80288964在线性感知器算法中,我们使用了一个f(x)=x函数,作为激励函数,而在逻辑斯蒂回归中,我们将会采用sigmoid函数...原创 2018-07-10 10:53:48 · 652 阅读 · 0 评论 -
crf++里的特征模板
一:Unigram和Bigram模板分别生成CRF的状态特征函数 和转移特征函数 。其中 是标签, 是观测序列, 是当前节点位置。每个函数还有一个权值,具体请参考CRF相关资料。crf++模板定义里的%x[row,col],即是特征函数的参数 。举个例子。假设有如下用于分词标注的训练文件:北 N B京 N E欢 V B迎 V M你 N E其中第3列是标签,也...原创 2018-07-16 23:40:59 · 10545 阅读 · 7 评论 -
拉格朗日对偶
在优化理论中,目标函数会有多种形式:如果目标函数和约束条件都为变量的线性函数, 称该问题为线性规划; 如果目标函数为二次函数, 约束条件为线性函数, 称该最优化问题为二次规划; 如果目标函数或者约束条件均为非线性函数, 称该最优化问题为非线性规划。每个线性规划问题都有一个与之对应的对偶问题,对偶问题有非常良好的性质,以下列举几个:对偶问题的对偶是原问题; 无论原始问题是否是凸的,对偶问题都是...原创 2018-07-12 21:14:40 · 519 阅读 · 0 评论 -
拟牛顿法推导
针对牛顿法中海塞矩阵的计算问题,拟牛顿法主要是使用一个海塞矩阵的近似矩阵来代替原来的还塞矩阵,通过这种方式来减少运算的复杂度。其主要过程是先推导出海塞矩阵需要满足的条件,即拟牛顿条件(也可以称为拟牛顿方程)。然后我们构造一个满足拟牛顿条件的近似矩阵来代替原来的海塞矩阵。 另外,在满足拟牛顿条件的基础上如何构造近似的海塞矩阵,这有很多种方法,比如:DFP算法,BFGS算法,L-BFGS算法以及...原创 2018-07-20 15:44:11 · 2766 阅读 · 0 评论