机器学习
guohui_0907
这个作者很懒,什么都没留下…
展开
-
线性回归、岭回归和Lasso回归
1 线性回归 假设有数据有:T={(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}T=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\}T={(x(1),y(1)),(x(2),y(2)),...,(x(m),...原创 2019-10-14 20:11:55 · 470 阅读 · 0 评论 -
千亿级数据量下,找两句话相似度,如何降低复杂度
1 simhash文本相似度计算1.1 分词 把需要判断的两个文本分词形成特征单词,必要时去掉噪音词(停用词),并为每个词加上权重,权重的计算可以是词频或者tf-idf。1.2 hash 通过hash算法把每个词变成hash值...原创 2019-08-23 17:00:53 · 802 阅读 · 0 评论 -
降维方法
1 PCA Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。 &nb...原创 2019-09-26 13:19:56 · 396 阅读 · 0 评论 -
提升方法
1 提升方法 提升方法是一种常用的统计学习方法,应用于广泛且高效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类器的性能。 提升方法的思想:对于一个复杂任务来说,将多个专家的判断进行适当...原创 2019-09-19 14:35:20 · 222 阅读 · 0 评论 -
决策树与随机森林
1 决策树模型 分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成。节点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。2 特征选择 特征的选择在于选取对训练数据具有分类能力的特...原创 2019-09-17 16:23:11 · 414 阅读 · 0 评论 -
SVM
svm有三宝:间隔、对偶、核技巧1 SVM分类hard-margin SVMsoft-margin SVMkernel SVM2 硬间隔SVM(最大间隔分类器)的模型定义模型的定义:f(w)=sign(wTx+b)f(w)=sign(w^{T}x+b)f(w)=sign(wTx+b)由上可知SVM是一个判别模型。硬间隔SVM的目标:{maxw,b margin(...原创 2019-07-15 20:03:17 · 166 阅读 · 0 评论 -
TF-IDF
1、介绍 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索与文本挖掘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或...原创 2019-07-09 20:51:33 · 367 阅读 · 0 评论 -
隐马尔可夫HMM
1 HMM组成三部分HMM可以由下面的三元符号表示:λ=(A,B,π)\lambda=(A,B,\pi)λ=(A,B,π)A是状态转移概率矩阵B是观测概率矩阵π\piπ是初始状态概率向量将观测变量用oto_tot表示,取值为V=v1,...,vMV={v_1,...,v_M}V=v1,...,vM将状态变量用iti_tit,取值为Q=q1,...,qNQ={q_1,......原创 2019-07-17 09:47:25 · 192 阅读 · 0 评论 -
线性链条件随机场CRF
线性链条件随机场是无向图、判别模型1 马尔科夫随机场2 线性链条件随机场概率密度函数参数形式如下:p(Y∣X)=1zexp∑i=1KFi(xci)(线性链的条件随机场有n−1个最大团,n为节点个数)=1zexp∑t=1TFt(yt−1,yt,x1:T)(假设存在一个y0,所以为T个最大团)=1zexp∑t=1TF(yt−1,yt,x1:T)(将T个F函数合并为一个F)=1zexp∑t...原创 2019-07-17 20:57:11 · 989 阅读 · 0 评论 -
K-Means聚类算法,KNN分类算法,AP聚类算法
1 K-Means 说明:类别的个数是提前定义好的,属于无监督学习算法。1.1 算法描述输入数据和K值随机生成K个点对输入的数据,计算每个点属于哪一类对于K个点,找出所有属于自己这一类的点,然后把坐标修改为这些点的中心判断算法是否收敛,若没有收敛返会3,否则输出结果2 KNN(K Nearest ...原创 2019-08-05 14:33:17 · 1835 阅读 · 0 评论