机器学习
Fang Suk
久居深巷、独忆易人
展开
-
文本相似度度量
文本相似度度量就是衡量两个文本相似度的算法。主要包括两个步骤:将文本表示为向量(文本表示);衡量两个向量的相似度(相似度度量)。1 文本表示文本表示也包括两部分:文本切分粒度(按什么粒度切分得到文本特征),如何构造特征(如何将文本特征转化成数值特征)。1.1 文本切分粒度可以按照字,词,n-gram对文本进行切分;当文本是长文本时,也可以利用主题模型提取关键词,来减少词的维度。1.2 文本特征构建特征构建就是如何将词袋模型中的词转化成向量表示。可以用one-hot,对应位置的权重可以是TF或者.转载 2020-06-09 14:58:37 · 1406 阅读 · 0 评论 -
CRF(条件随机场)
1适用场景CRF是用于序列标注的模型,区别于其他算法对一个随机变量建模,CRF是对一组随机变量的联合概率分布进行建模。2算法原理CRF做了一下假设:1假设联合概率分布是指数族分布p(y1,y2,...,yn∣X)=1Z(x)exp(f(y1,y2,...,yn;X))p(y_1,y_2,...,y_n|X)=\frac{1}{Z(x)}exp(f(y_1,y_2,...,y_n;X))p(y1,y2,...,yn∣X)=Z(x)1exp(f(y1,y2,...,yn;X))2成原创 2020-06-08 19:58:51 · 520 阅读 · 0 评论 -
SVM(support vector machines)支持向量机
1 线性可分支持向量机和硬间隔最大化1.1 定义给定线性可分训练数据集,通过间隔最大算法或等价求解凸二次规划问题学得分离超平面:w∗⋅x+b∗=0w^*\cdot x+b^*=0w∗⋅x+b∗=0相应的分类预测函数是:f(x)=sign(w∗⋅x+b∗)f(x)=sign(w^*\cdot x+b^*)f(x)=sign(w∗⋅x+b∗)与感知机的对比:线性可分支持向量机和感知机的分离超平面和决策函数完全一致。区别就在对参数w∗,b∗w^*,b^*w∗,b∗的求解上。支持向量机的要求更原创 2020-06-08 18:27:01 · 343 阅读 · 0 评论 -
最大熵模型(Maximum entropy model)
最大熵模型(Maximum entropy model)本文你将知道:什么是最大熵原理,最大熵模型最大熵模型的推导(约束最优化问题求解)最大熵模型的含义与优缺点依靠最大熵原理得到的模型是最大熵模型。先来说最大熵原理:1 最大熵原理最大熵原理:在满足已知约束条件的模型集合中,选择熵最大的模型。熵最大,对应着随机性最大。最大熵首先要满足已知事实,对于其他未知的情况,不做任何的假设,认为他们是等可能性的,此时随机性最大。2 最大熵模型最大熵原理是统计学习的一般原理,将它应用到分类得到最大熵模原创 2020-06-05 15:54:20 · 1178 阅读 · 0 评论 -
概率图模型:HMM,MEMM,CRF
HMM(Hidden Markov Moel)是一个有向图模型,为简化求解多随机变量的联合概率分布,做了两个假设:齐次马尔科夫假设和观测独立假设。这两个假设都具有局限性。MEMM(Maximum Entropy Markov Model)舍弃了HMM的观测独立假设,使用了所有上下文的观测值。因此具有更强的表达能力。同时使用最大熵模型对条件概率建模。每个条件概率在局部进行了归一化,这又带来了“label bias”问题。CRF去除了HMM的另一个假设“齐次马尔科夫假设”,使用全局归一化计算联合概率,避免了局部原创 2020-06-05 08:49:00 · 581 阅读 · 0 评论 -
统计学习方法--树模型
树模型(上思维导图来自知乎:夕小瑶)决策树算法主要包括决策树的生成与剪枝。1 决策树生成决策树可以从两个方面解释看做是if-then规则的集合把特征空间划分成互不相交的单元,每个单元定义一个条件概率分布。决策树学习的本质是从训练数据集中归纳出一组分类规则,也可以看做是对特征空间划分类的条件概率分布。首先,按照根据统计学习三要素来分析决策树学习的过程:假设空间:对特征空间进行划分所有可能的决策树损失函数:正则化的极大似然函数优化方法:优化就是要在所有可能的的决策树中选择损失最小的树原创 2020-06-01 18:08:45 · 505 阅读 · 0 评论 -
统计学习方法--线性模型
线性模型(上面的思维导图来自知乎:夕小瑶)线性模型是想要使用属性的线性组合来进行预测的方法。按照label是连续的还是离散的。可分为线性回归和线性分类模型。下面在介绍各模型时主要按照统计学习的三要素(模型假设空间,损失函数,优化方法)介绍。假设空间:先给出一个范围区间,在这个区间内查找最优模型。模型有两种形式条件概率分布或者决策函数。模型的假设空间就是所有可能的条件概率分布或决策函数。损失函数:定义评价指标,如何评价模型的好坏。优化方法:如何根据评价指标在假设空间找到最优的模型。1线性回原创 2020-06-01 15:16:48 · 1344 阅读 · 0 评论 -
ensemble learning集成学习
在实际的学习任务中,得到强学习器要比得到弱学习器困难的多。于是就有人研究如何将弱学习器组合成强学习器(毕竟三个臭皮匠赛过诸葛亮,结合集体的智慧得到好的结果),一般将这一类的方法统称为集成学习。集成学习会要求基学习器“好而不同”。“好”是指每个基学习器要有一定的辨别能力,至少要强于随机猜测;“不同”是指多个基学习器之间要具有一定的差异性(各有所长)。下面的思维导图对集成学习的知识进行了归纳(主要参见周志华老师的西瓜书)。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lqKTy原创 2020-05-31 21:49:27 · 384 阅读 · 0 评论 -
xgboost算法
xgboost算法本节主要讲1.什么是xgboost2.xgboost的思想3.xgboost算法中的一些细节分裂的打分函数推导xgb中避免过拟合的方法总结最优分裂点选择缺失值处理并行计算设计1.什么是xgboostxgboost是xetreme gradient boost(极度梯度提升的缩写),是梯度提升树(GBDT)的一种实现方式,更加高效并且效果更好。2.xgboost的思想xgboost(下简称xgb)是GBDT的一种实现方式。所有,xgb模型也是原创 2020-05-31 17:25:28 · 895 阅读 · 0 评论 -
Adaboost
Adaboost1.思想通过改变数据概率分布,来得到一系列的弱分类器。主要有两个问题:(1)如何改变数据分布将上一弱分类器误分样例的权重提高,正确分类样例的权重降低(2)如何将若分类器组合为强分类器加权求和2.算法流程输入:训练样本集T=(x1,y1),(x2,y2),...,(xn,yn),其中x∈χ⊂Rn,y∈{1,−1}T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)},其中x\in\chi\subset{R^n},y\in{\{1,-1\}}T=(x1,y原创 2020-05-27 15:46:21 · 214 阅读 · 0 评论 -
HMM(隐马尔科夫模型)
HMM(隐马尔科夫模型)1适用场景hmm模型用于序列标注问题的统计学模型。描述有隐藏的马尔科夫链生成观测序列的过程。属于生成模型。2算法原理2.1 序列标注任务看做互不相干的多分类任务序列标注算法的目的就是为了得到最大的联合条件概率作为输出。maxP(o∣x)=maxp(o1o2...om∣x1x2...xm)\mathop{max}P(o|x)=\mathop{max}p(o_1o_2...o_m|x_1x_2...x_m)maxP(o∣x)=maxp(o1o2...om∣x1x2原创 2020-05-20 22:02:14 · 541 阅读 · 0 评论 -
EM算法简介
EM算法简介1 使用场景EM算法(expectation maximization algorithm)用于含有隐变量概率模型参数的极大似然估计。在不含有隐变量(未观测变量)的概率模型参数估计,最常用的就是极大似然估计。在含有未观测变量时,一般使用EM算法。2 目标EM算法还是要极大化观测数据(不完全数据)的对数似然函数。假设有m个观测样本(y1,z1),(y2,z2),...,(ym,zm)(y_1,z_1),(y_2,z_2),...,(y_m,z_m)(y1,z1),(y2,z2),.原创 2020-05-20 22:01:06 · 480 阅读 · 0 评论 -
Mechine Learning--决策树
决策树(Decision Tree)是一种基本的分类与回归方法。一、决策树模型的理解1、if-then规则的集合 决策树可以看作是if-then规则的集合,可以从根结点到叶节点的每一条路径构建一个规则。决策树的路径与其对应的if-then规则集合具有一个重要的性质:互斥并且完备:每一个实例都被一条路径或者规则覆盖,并且只被一条路径或者规则覆盖。2、条件概率分布...原创 2019-09-25 17:43:01 · 299 阅读 · 0 评论 -
Machine Learning 贝叶斯分类器
一、朴素贝叶斯定义朴素贝叶斯是基于贝叶斯定理和条件独立假设的分类方法。1、贝叶斯判定准则对于任意的模型来说,学习的目标就是为了让总体的期望风险最小。期望是对联合分布P(X,Y)取的。由此取条件期望:由于联合分布P(X,Y)未知,不能直接计算。但是我们可以对训练数据集计算期望损失,将之称为经验风险或者经验损失。一般来说我们会定义损失函数与优化算法。然后让模型去学习,目标是整体的经...原创 2019-09-20 15:43:30 · 224 阅读 · 0 评论 -
TF-IDF
TF-IDF是基于词频的文本特征表示方法。TF(term frequency)绝对词频。IDF(Inverse Document Frequency,IDF)逆文本频率。这里先简单介绍下TF绝对词频。一、TF绝对词频绝对词频是相对于布尔词频来说的。布尔词频用0,1来表示某词是否出现。布尔词频无法区分不同特征项的重要程度,只能表示该词是否出现。相对词频使用词出现的频率来表示特征。这符合我们的...原创 2019-09-16 14:15:22 · 433 阅读 · 2 评论 -
Machine Learning学习--逻辑回归(LR)原理与实现
一、逻辑蒂斯分布设x是连续性随机变量,x服从逻辑蒂斯分布是指x具有以下的分布函数和概率密度函数。二、逻辑回归(LR)1、逻辑回归(logistic regression)定义LR模型由条件概率P(Y|X)表示,并假设这个分布是逻辑蒂斯分布。模型学习就是确定该分布中的未知参数,用wx+b来表示未知的参数部分。二项逻辑回归模型时如下的条件概率分布2、逻辑回归的特...原创 2019-08-20 19:44:05 · 517 阅读 · 0 评论 -
Machine Learning学习---感知机算法实现
前言:Machine Learning用来记录机器学习常用几种算法的学习过程,理论知识部分基本摘抄至李航大神的统计学习方法。每个算法会有自己的源码实现。优缺点总结,适用场景(后续补充)。一、感知机算法原理统计学习三要素:方法=模型+策略+算法1)模型定义感知机是用来分类的一种模型,假设x属于n维实数空间的向量,,感知机模型定义为:感知机是一种线性分类模型,属于判别模型。感知...原创 2019-06-28 20:29:59 · 748 阅读 · 0 评论 -
Machine Learning学习---K-NN算法实现
一、KNN算法原理K近邻是一种基本的分类和回归方法。原理是根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。K近邻不具备显示的学习过程。在预测时只是在训练集中找最接近的K个样本进行预测。所以k近邻关键在于如何快速找到邻近的k个样本。尤其是特征维度大,样本数量众多的时候。kd树是进行快速查找的一种方式。二、KNN算法三要素KNN算法的三要素:距离度量方式,K值的选择,分类决策...原创 2019-06-28 19:44:59 · 334 阅读 · 0 评论