机器学习
文章平均质量分 81
浅梦s
浙大计算机硕士,现于阿里巴巴担任算法工程师。公众号:浅梦的学习笔记,Github:https://github.com/shenweichen
展开
-
主题模型LDA
本文首先介绍了主题模型中的两个重要分布多项分布和狄利克雷分布。然后介绍了LDA的生成过程,采样过程待补充。原创 2017-08-31 09:59:36 · 740 阅读 · 0 评论 -
高斯混合模型GMM
本文介绍了高斯混合模型GMM和其参数估计的EM求解方法。原创 2017-08-28 16:03:37 · 6238 阅读 · 0 评论 -
EM算法及其推广
本文介绍了EM算法的原理以及其收敛性证明。原创 2017-08-27 17:44:49 · 925 阅读 · 0 评论 -
提升方法AdaBoost
本文首先介绍提升方法的思路和代表性提升方法AdaBoost。然后说明了AdaBoost算法训练误界及在二分类问题上的训练误差界。然后介绍前向分步加法模型。原创 2017-08-27 16:12:38 · 763 阅读 · 0 评论 -
XGBoost原理简介
本文从模型函数形式,树结点划分方法,系统设计三个层面介绍了XGBoost。原创 2017-09-28 13:50:11 · 2040 阅读 · 0 评论 -
最大熵模型
本文介绍了最大熵模型的原理,定义,模型的学习和极大似然估计。原创 2017-08-27 12:54:21 · 622 阅读 · 0 评论 -
朴素贝叶斯算法
本文介绍了朴素贝叶斯(naive Bayes)算法和参数估计得极大似然估计和贝叶斯估计方法,以及三种常用的贝叶斯分类器。原创 2017-08-25 23:10:33 · 522 阅读 · 0 评论 -
HMM隐马尔可夫模型
本文介绍了HMM的基本概念,以及三个基本问题(概率计算,学习,预测)的对应解法。原创 2017-08-27 17:46:17 · 414 阅读 · 0 评论 -
LightGBM原理简介
本文介绍了LightGBM的若干改进方法。原创 2017-09-28 18:01:51 · 4606 阅读 · 0 评论 -
Lasso回归的坐标下降法推导
本文介绍了Lasso回归的目标函数,以及使用坐标下降法求解Lasso回归问题的步骤,最后介绍了Lasso回归的概率解释。原创 2017-08-22 21:38:15 · 18399 阅读 · 6 评论 -
主成分分析PCA
本文首先介绍了向量空间的概念,然后从最近重构性和最大可分性推导了PCA公式,最后给出了伪代码和算法评价。Kernel PCA原创 2017-10-12 14:42:04 · 829 阅读 · 1 评论 -
感知机Perceptron
本文首先介绍感知机模型;然后叙述感知机的学习策略和损失函数。最后介绍原始形式和对偶形式的学习算法。原创 2017-08-25 16:18:01 · 967 阅读 · 0 评论 -
逻辑斯谛(Logistic)回归
本文介绍逻辑斯谛分布和逻辑斯谛回归,对数似然函数的梯度上升求解,以及sigmoid函数的由来原创 2017-08-27 12:51:40 · 3145 阅读 · 1 评论 -
矩阵分解(MF,SVD)和协同过滤(CF)
本介绍了协同过滤算法中基于近邻的过滤,然后介绍了矩阵分解的SVD方法和公式推导,以及和PCA的关系。概率意义,求解方法。最后介绍了矩阵分解和Ridge回归的联系。原创 2017-08-30 15:08:54 · 18817 阅读 · 3 评论 -
特征选择的方法
本文介绍了特征选择的三类方法,过滤式,包裹式,嵌入式。原创 2017-10-09 14:41:56 · 6819 阅读 · 0 评论 -
线性SVM与软间隔最大化
本文介绍了线性支持向量机。包括松弛变量和惩罚项等概念。线性SVM原始问题和对偶问题。最后介绍合页损失函数。原创 2017-08-25 00:08:25 · 2590 阅读 · 0 评论 -
密度聚类DBSCAN
本文介绍了基于密度的聚类的一般概念和特性。然后介绍了密度聚类的一种实例DBSACN。介绍了DBSCAN中的几个重要概念,簇的定义。最后介绍了DBSCAN算法。原创 2017-09-25 16:46:28 · 1145 阅读 · 0 评论 -
非负矩阵分解NMF
本文介绍非负矩阵分解NMF的优化目标和概率解释原创 2017-08-31 15:00:15 · 1038 阅读 · 0 评论 -
k近邻法
本文介绍KNN算法,包括距离度量,k值的选择,及分类决策规则。kd树待补充。原创 2017-08-25 21:14:40 · 383 阅读 · 0 评论 -
稀疏线性回归(lp正则)
本文介绍稀疏线性回归的相关概念。lp正则化原创 2017-08-30 11:32:08 · 5799 阅读 · 1 评论 -
线性回归
本文介绍了线性回归的模型及其解析解的形式,以及从几何和概率的角度解释线性回归模型。原创 2017-08-29 22:04:35 · 439 阅读 · 0 评论 -
决策树
在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 其主要优点是模型具有可读性,分类速度快。 学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。 预测时,对新的数据,利用决策树模型进行分类。 决策树学习通常包括3个步骤:特征选择,决策树生成和决策树的修剪。决策树模型与学习决策树与if-else原创 2017-08-26 23:25:35 · 746 阅读 · 0 评论 -
Bagging与随机森林
BaggingBagging是Bootstrap AGGregatING的缩写。 Bagging基于自助采样法(bootstrap sampling)。给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中。这样,经过m次随机采样操作,我们得到含m个样本的采样集,初始训练集中有的样本再采样集里多次出现,有的则从未出现。 采样出...原创 2017-09-26 17:21:13 · 9959 阅读 · 0 评论 -
提升树和GBDT
本文首先介绍提升树的模型,算法和梯度提升方法。然后介绍GBDT模型的形式和损失函数。原创 2017-08-27 20:10:15 · 1659 阅读 · 0 评论 -
非线性SVM与核函数
本文首先介绍核函数以及核技巧在SVM中的应用。然后介绍正定核概念和常用核函数。最后总结非线性SVM算法。原创 2017-08-25 10:53:41 · 11662 阅读 · 0 评论 -
在线学习算法FTRL-Proximal
本文首先简要说明了几种在线稀疏学习算法,如L1OGD,TG,FOBOS,RDA。然后主要介绍FTRL算法,包括参数更新策略,公式推导,和逐维度的学习率调度机制。最后给出了LR模型上带l1l2正则化的FTRL算法的伪代码。原创 2017-10-09 15:52:53 · 3836 阅读 · 0 评论 -
性能度量
本文介绍了机器学习任务中的常用度量,包括准确率,查全率,查准率,TPR,FPR,F分数。ROC,PR曲线,AUC。多类分类的度量,回归任务的度量原创 2017-09-29 18:14:56 · 726 阅读 · 0 评论 -
kmeans聚类
本文介绍了聚类算法中的k-means算法和其智能初始化版本的k-means++原创 2017-08-28 12:45:17 · 656 阅读 · 0 评论 -
线性可分SVM与硬间隔最大化
本文首先介绍了线性可分支持向机,函数间隔,几何间隔等概念。然后介绍了线性可分SVM的对偶问题及其求解方法。原创 2017-08-24 15:57:09 · 2950 阅读 · 0 评论