![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习之旅
Mankind_萌凯
90后,计算机研究生,欢迎关注我的微信公众号:萌凯的程序人生
展开
-
【数据挖掘】Apriori算法
关联分析:在大数据中寻找有趣的关系,包括频繁项集或者关联规则。频繁项集是指经常一起出现的物品的集合,关联关系暗示两种物品之间可能存在很强的关系。这种关联分析有什么用呢?根据常识,经常一起出现的可能有某种关系,比如商品A和商品B在同一个频繁项集里,那么可能说明购买商品A的人会选择购买商品B,或者反过来。那么商家就可以利用这个信息,将频繁项集的物品摆放在一起,以希望提高营业额。又或者网上购物时,可以根原创 2017-10-11 13:42:23 · 610 阅读 · 0 评论 -
【机器学习】潜在语义分析LSA和PLSA
666原创 2019-01-15 15:31:54 · 981 阅读 · 1 评论 -
【机器学习降维】拉普拉斯矩阵与谱聚类
文章目录1.拉普拉斯矩阵1.1 简介1.2 性质2.谱聚类3. 拉普拉斯特征映射Laplacian Eigenmaps1.拉普拉斯矩阵1.1 简介 拉普拉斯矩阵(Laplacian matrix),也称为基尔霍夫矩阵, 是表示图的一种矩阵。给定一个有n个顶点的图G=(V,E),其拉普拉斯矩阵定义为:L=D−WL=D-WL=D−W 其中W为图G的邻接矩阵,一个N×NN \time...原创 2019-01-31 16:56:28 · 1841 阅读 · 1 评论 -
【机器学习算法推导】高斯混合模型GMM与EM算法
高斯混合模型(GMM) 极大似然估计是一种应用很广泛的参数估计方法。在已有某个地区身高数据以及知道身高服从高斯分布的情况下,利用极大似然估计的方法可以估计出高斯分布μ,σ\mu,\sigmaμ,σ两个参数。 如果是多组数据,多个模型呢?获取现在我们有全国多个省份的身高数据,但并不知道它们具体属于哪个省份,只知道每个省之间服从不同的高斯分布,此时的模型称为高斯混合模型(GMM),其公式为P...原创 2019-01-16 17:15:57 · 921 阅读 · 1 评论 -
【机器学习算法推导】隐狄利克雷模型LDA
文章目录1.概率论基础1.1 二项分布1.2 多项式分布1.3 Gamma分布1.4 共轭分布1.5 Beta分布1.概率论基础1.1 二项分布 二项分布是n重伯努利分布,可以看做是将硬币抛n次,出现k次正面向上的概率,每次出现正面向上的概率为p,其概率密度公式为P(X=k)=Cnkpk(1−p)n−kP(X=k)=C_n^kp^k(1-p)^{n-k}P(X=k)=Cnkpk(1...原创 2019-01-28 21:37:55 · 948 阅读 · 1 评论 -
【机器学习算法】感知机模型
1.感知机模型 感知机模型是一个二分类的模型,它通过形如y=wx+by=wx+by=wx+b的式子将实例x转换为类别,取+1和-1表示,从而将实例进行划分。它是简单并且容易实现的一个模型。 感知机模型主要用来将平面上线性可分的数据集进行划分,对于线性不可分的数据集,感知机无法收敛。 感知机模型的输入输出由以下函数进行映射,其中w是n维空间的一个向量,b是偏置,sign是符号函数。f(...原创 2019-02-17 19:34:02 · 1078 阅读 · 0 评论 -
【机器学习算法】牛顿法和拟牛顿法
文章目录1.牛顿法1.1 算法推导1.牛顿法 统计学习方法有了具体形式后就转换为最优化问题。有时最优化问题存在解析解,可以由公式计算,多数情况下没有解析解,需要用数值计算的方法求解,牛顿法和拟牛顿法是求解无约束最优化问题的常用方法,收敛速度快。 牛顿法是迭代算法,每一步需要求解目标函数的海塞矩阵的逆矩阵。1.1 算法推导 无约束最优化问题如下:minx∈Rnf(x).........原创 2019-02-27 15:35:51 · 365 阅读 · 0 评论 -
【机器学习算法】决策树模型ID3、C4.5、CART
决策树是一种符合人类直观感觉的模型,比如有一棵决策树如下: 上图是某女青年在决定相亲对象是时会进行的一系列决策过程。首先看对方的年龄,如果大于30岁,直接pass,如果小于等于30岁,就再看对方长得如何,长得丑,就不见,长的好看的,再继续看它的收入……以此类推,最终可以得到一颗决策树。而任何一个样本(男性)在这棵树上走一遍之后,都能够输出“见”或者“不见”的结果。那其实这就是一个分类的过...原创 2019-02-22 21:23:05 · 808 阅读 · 0 评论 -
【机器学习算法】最大熵模型
文章目录1.最大熵原理2.最大熵模型3.训练过程4.极大似然估计5.改进的尺度迭代法IIS1.最大熵原理 在概率统计中,最大熵原理认为在所有可能的概率模型中,熵最大的模型是最好的模型。可以理解成在所有满足约束条件的模型集合中,选取熵最大的模型。由于熵满足不等式0≤H(P)≤log∣X∣0 \le H(P) \le \log |X|0≤H(P)≤log∣X∣ 当且仅当X服从均匀分布...原创 2019-02-23 20:42:11 · 630 阅读 · 0 评论 -
【机器学习算法】高斯判别分析GDA
高斯判别分析 高斯判别分析(Gaussian discriminative analysis )是一个较为直观的模型,属于生成模型的一种,采用一种软分类的思路,所谓软分类就是我们对一个样本决定它的类别时使用概率模型来决定,而不是直接由函数映射到某一类上。生成模型通过求解联合概率来求解P(y∣x)P(y|x)P(y∣x)。它假设y∼Bernoulli(ϕ)x∣y=1∼N(μ1,Σ)x∣y=0∼...原创 2019-03-03 10:29:15 · 543 阅读 · 0 评论 -
【机器学习降维】Fisher判别分析LDA
思想是,类内小,类间大。方法是,降维的角度出发,把p维的样本数据都投影到一个1维的方向,使得不同的样本在降维后的一维空间内具有“类内小,类间大”的结果,从而很好地将两类数据分开。 假设我们找到了最好的投影方向www,如果不对其做限定的话,这样的w可以有无数条,所以我们限定∣∣w∣∣=1||w||=1∣∣w∣∣=1。将样本点xix_ixi投影到向量w上,得到新的点ziz_izi,有zi=...原创 2019-03-03 10:52:28 · 1152 阅读 · 0 评论 -
【机器学习总结】向量、矩阵求导公式
关于向量求导用到的公式实在是太多了…经常公式推着推着就被卡住,这里一次性做个总结吧。文章目录0.引言1.向量对元素求导2.向量对向量求导3.矩阵对向量求导4.矩阵复合向量的求导0.引言 正文中,元素使用字母a,b,c等表示,向量使用小写的x,y,zx,y,zx,y,z等表示,并且默认是列向量,矩阵使用大写的A,B,C进行表示。1.向量对元素求导行向量对元素求导∂xT∂a=[∂x...原创 2019-02-27 13:23:10 · 1384 阅读 · 5 评论 -
【深度学习】RNN与LSTM
文章目录循环神经网络RNN双向RNN循环神经网络RNN Recurrent Neural Network是一种有记忆力的神经网络。为什么说有记忆力呢?因为它的隐藏层输出会被保存起来,在下一次计算隐藏层输出的时候,会考虑到先前保存的值。 对于普通的BP神经网络,第k层的隐藏层的输出是ak(x)=wkxa_k(x)=w_kxak(x)=wkx 对于RNN循环神经网络来说,第k层...原创 2019-03-13 23:00:25 · 666 阅读 · 0 评论 -
【推荐系统】SVD++
用户对物品的评分等操作实际上很少,但是用户的点击,关注,收藏,浏览时长等隐性行为却很多,能否将这些考虑进来作为我们的预测准则之一呢? SVD++在RSVD的基础上,考虑了用户对物品的隐式行为。因为有时候一个用户的点击,收藏,浏览时长等隐式行为,我们是可以将其考虑进来的,它作为一种交互,也反应了用户的一种隐式意愿。为了将隐式兴趣加入到模型中,在预测规则中加入r^ui=Uu.Vi.T+(1∣...原创 2019-03-19 15:31:13 · 2379 阅读 · 2 评论 -
【自然语言处理】word2vec模型
N-gramP(w1,w2,w3,..,wn)=P(w1∣start)P(w2∣w1)...P(wn∣wn−1)P(w_1,w_2,w_3,..,w_n)=P(w_1|start)P(w_2|w_1)...P(w_n|w_{n-1})P(w1,w2,w3,..,wn)=P(w1∣start)P(w2∣w1)...P(wn∣wn−1)其中每个条件概率可以统计的方式进行估算...原创 2019-03-15 23:06:39 · 552 阅读 · 0 评论 -
【推荐系统】MF-OPC与MF-MPC
文章目录1.MF-OPC算法2.MF-MPC(附代码)1.MF-OPC算法 在矩阵分解MF算法中,我们使用了SVD的思想,将user-item评分矩阵分解为user的潜在兴趣矩阵U和item的潜在特征矩阵V,但对于每个评分ruir_{ui}rui的预测,我们只根据用户U和物品I的潜在特征进行计算。r^ui=Uu.Vi.T+bu+bi+μ\hat r_{ui}=U_{u.}V_{i.}^...原创 2019-03-20 10:52:15 · 848 阅读 · 0 评论 -
【深度学习】深度残差网络ResNet
文章目录1 残差网络ResNet1.1要解决的问题1.2 残差网络结构1.3 捷径连接1.4 总结1 残差网络ResNet1.1要解决的问题 在传统CNN架构中,如果我们简单堆叠CNN的层数,深层CNN在训练集上面的表现反而要比浅层CNN在训练集上面的表现差的多。这明显是不合理的,因为浅层CNN很明显只是深层CNN的一个子集。 那也就是说,深层网络并没有能够很好地学习到训练集,它甚至连...原创 2019-03-16 10:28:00 · 1757 阅读 · 0 评论 -
【推荐系统】UserCF与ItemCF
电影-用户评分表nun_unu=no.usersnmn_mnm=no.moviesr(i,j)=1r(i,j)=1r(i,j)=1 if user j has rated movie iy(i,j)=y^{(i,j)}=y(i,j)=rating given by user j to movie i (defined only if r(i,j)=1r(i,j)=1r(i,j)=1)...原创 2019-03-17 19:09:56 · 1239 阅读 · 0 评论 -
【深度学习】卷积神经网络CNN
文章目录1.卷积神经网络1.1Convolution 卷积1.2 Max Pooling最大池化1.3 Flatten2.理解深度学习1.卷积神经网络1.1Convolution 卷积 卷积核里面的数字是被学出来的。卷积核的大小是认为规定的,以3×33\times33×3的卷积核为例,[1−1−1−11−1−1−11],[−11−1−11−1−11−1],... \begin{bmat...原创 2019-01-09 15:44:16 · 1665 阅读 · 0 评论 -
【机器学习算法推导】隐马尔科夫模型HMM及相关算法
文章目录1.隐马尔可夫模型HMM1.1 简介1.2 定义1.3 实例1.4 生成观测序列1.5 HMM的三个基本问题2.评估观察序列概率2.1 暴力求法2.2 前向算法2.3 后向算法1.隐马尔可夫模型HMM1.1 简介 隐马尔科夫模型是与概率论密切相关的一个模型,隐马尔科夫模型(Hidden Markov Model,以下简称HMM)在语音识别,自然语言处理等方面都有所应用。它被用来解决...原创 2019-01-19 15:28:09 · 598 阅读 · 1 评论 -
【机器学习算法推导】线性回归,L1L2正则
线性回归,主要用于从数据中拟合出一条直线(或更高维的平面),这条直线能够很好地体现数据的特征,比如,它能够使得平面上的点都均匀地分布在这条直线上。算法思想在简单线性回归中,我们的数据集拥有一定的参数和相应的输出,另x(i)x^{(i)}x(i)表示第i个数据的参数,y(i)y^{(i)}y(i)表示第i个数据的输出,令目标函数Hθ(x(i))=θ0+θ1x1+θ2x2+...+θnxnH_...原创 2018-12-19 21:48:09 · 450 阅读 · 0 评论 -
【机器学习算法推导】逻辑回归
逻辑回归(logistic regression)是分类算法的一种,通过形成决策边界,达到对数据进行分类的效果。算法思想逻辑回归中,以二分类为例,最终预测得到的是一个分类,也就是0或者1。若目标函数hθ=θ0+θ1x1+θ2x2+...+θnxnh_θ=θ_0+θ_1x_1+θ_2x_2+...+θ_nx_nhθ=θ0+θ1x1+θ2x2+...+θnxn,最终得到的值,往...原创 2018-12-21 15:14:24 · 279 阅读 · 0 评论 -
【机器学习】模型评估(precision、recall、f1,ROC)
偏斜类正类和负类的比例失衡,比如存在99%的正类和1%的负类,当算法的输出恒为1时,此时的错误率也只有1%,在这种情况下,并不能够很好地估计模型的泛化能力。定义TP(True Positive),表示模型预测为正样本,实际上为正样本。FP(False Positive),表示模型预测为正样本,实际上为负样本。FN(False Negative),表示模型预测为负样本,实际上为正样本T...原创 2018-12-27 10:28:58 · 2821 阅读 · 0 评论 -
【机器学习】欠拟合,过拟合的常见处理方法
过拟合(over-fitting)在算法对模型参数的学习过程中,如果模型过于强大,比如说,样本空间分布在一条直线的附近,那么我们的模型最好是一条直线,hθ(x)=θ0+θ1x1h_\theta(x)=\theta_0+\theta_1x_1hθ(x)=θ0+θ1x1。但我们并不知道数据的情况,可能我们的函数是这样的:hθ(x)=θ0+θ1x1+θ2x22+θ3x33h_\theta(x)...原创 2018-12-22 12:05:36 · 1225 阅读 · 0 评论 -
【机器学习算法】BP神经网络
神经元模型输入x1,x2,x3,输出结果hθ(x)=11+e−θTxh_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=1+e−θTx1激活函数对于非线性函数g(z)的一个学术称呼。如之前学习过的h(x)=11+e−xh(x)=\frac{1}{1+e^{-x}}h(x)=1+e−x1就是一个激活函数,也叫做Sigmoid函数。输入层,隐藏层,输出...原创 2018-12-25 13:35:04 · 659 阅读 · 0 评论 -
【机器学习算法】支持向量机SVM
线性可分 在二维平面中,正样本和负样本可以由一条直线完全隔开。假设存在直线y=ω1x+by=\omega_1 x+by=ω1x+b使得平面上ω1x+b≥0\omega_1 x+b\ge 0ω1x+b≥0处完全是正样本,ω1x+b<0\omega_1 x+b<0ω1x+b&原创 2018-12-31 13:35:17 · 370 阅读 · 0 评论 -
【机器学习算法】K均值(K-means)
非监督算法是机器学习研究的一大领域,它适用于不带标签的样本数据,采取一定的算法,将样本分成自动分类成不同的簇。K均值(K-meas) K均值算法接收两个输入,一个是K,表示簇的数量,另一个是不带标签的训练集{x1,x2,..xmx_1,x2,..x_mx1,x2,..xm}。 算法过程如下:随机初始化K个聚类中心μ1,μ2,...μK\mu_1,\mu_2,...\mu_Kμ...原创 2018-12-31 15:20:09 · 628 阅读 · 0 评论 -
【机器学习算法】集成学习之Stacking,Bagging,AdaBoost
模型融合(aggregation models)假设有n个模型,采用适当的模型融合方法,可以产生更好的结果。选取可信度最大的模型(validation error最小)让每个模型投票让每个模型投票,但是给可信度大的模型更多的票数加入预测的条件uniform blending核心思想:少数服从多数,民主投票知道n个模型的输出,每个模型有一票,则最终的输出:H(x)=sign...原创 2019-02-26 09:18:55 · 663 阅读 · 0 评论 -
【基于SSH框架的个人博客系统02】项目分析与数据库表设计
注意:本项目为博主初学Web开发时所写,所使用的方法都比较笨,不符合主流开发方法。例如,包管理应该使用Maven进行管理而不是手动导入,对前端后端代码的架构也并不是很清晰。大家学习思想即可,可以不用浪费时间在将这个项目跑起来。目前主流的技术应当是Spring+SpringMVC+Mybatis的SSM框架,配合Shiro做权限控制,Redis做缓存,也可以学习SpringBoot开发微服务。由...原创 2019-01-10 22:04:52 · 4169 阅读 · 8 评论 -
【机器学习】如何改进机器学习的性能?
当我们的模型出现了过拟合,或者欠拟合的情况,如何处理?验证模型由于在训练样本中得到的训练误差,是不能够用来作为实际的泛化误差的,因此我们分割样本为训练集和测试集,在训练集上训练模型,在测试集上计算测试误差。在模型选择的过程中,我们通过比较不同模型的测试误差,选出一个测试误差最低的模型。然而这样也不能够公平地说明我们的模型推广到一般情况下的效果,因为我们选择了一个能够最好地拟合测试集的模型,...原创 2018-12-26 11:14:49 · 363 阅读 · 0 评论 -
【机器学习降维】主成分分析PCA
PCA是寻找到一个低维的平面对数据进行投影,以便最小化投影误差的平方,即最小化每个点与投影后的对应点之间距离的平方值。算法流程:预处理数据,对数据进行均值化计算协方差矩阵Σ=1m∑i=1m(x(i))(x(i))T\Sigma=\frac{1}{m}\sum\limits_{i=1}^m(x^{(i)})(x^{(i)})^TΣ=m1i=1∑m(x(i))(x(i))T使用SVD特征...原创 2019-01-02 11:00:40 · 485 阅读 · 0 评论 -
【机器学习算法推导】AdaBoost与GBDT(Gradient Boosting Decision Tree)
随机森林RandomForest使用bootstraping取样得到T份不同的样本,得到T棵决策树,将这些决策树融合起来,就可以得到随机森林。AdaBoost-DTree 一棵树,如果无限制的划分下去,能够得到一颗完全长成的树,任何训练样本都能够很好地划分,也就是说我们的训练误差ϵ=0\epsilon=0ϵ=0。 对于AdaBoost来说,ϵ=0\epsilon=0ϵ=0意味着缩放因子...原创 2019-01-07 11:05:20 · 512 阅读 · 0 评论 -
【推荐系统】交替最小二乘法ALS和RSVD
文章目录1.ALS算法2.RSVD算法1.ALS算法 ALS(Alternating Least Square,交替最小二乘法)指使用最小二乘法的一种协同推荐算法。在UserCF和ItemCF中,我们需要计算用户-用户相似性矩阵/商品-商品相似性矩阵,对于大数据量的情况下很难处理好。那我们能否像PCA,word embedding那样,用低维度的向量来表示用户和商品呢? ALS算法将us...原创 2019-03-18 16:36:05 · 1900 阅读 · 2 评论