机器学习
Preke
这个作者很懒,什么都没留下…
展开
-
【机器学习】朴素贝叶斯
好的,回去看完了Andrew Ng的关于这一节的公开课,还有中文的课堂笔记 然后参照了一下《集体智慧编程》这本书,现在对这个算法有一个全面的理解了贝叶斯决策,基本上,从直观理解就是做了这样的事情: 给定历史的数据和类别,然后新来一个数据,计算新来的数据属于每个类别的概率,然后将新来的数据归为概率最大的那一类。贝叶斯定理: p(c|w)=p(w|c)p(c)p(w)p(c|w) = \fra原创 2017-02-24 18:01:07 · 529 阅读 · 0 评论 -
【机器学习笔记】伯努利分布和高斯分布
涉及到的两个概念就是 : 广义线性模型(Generalized Linear Models) 和 指数分布族 (The exponential family)有一个这样神奇的式子: p(y;η)=b(y)eηTT(y)−a(η)p(y;\eta) = b(y)e^{\eta^TT(y)-a(\eta)}来表示指数分布族,只要我们给定特定的 T(y),a(y),b(y)T(y), a(y), b(原创 2017-10-03 16:00:49 · 7112 阅读 · 1 评论 -
【机器学习笔记】Hessian矩阵
看牛顿法的时候,遇到的这个问题 原问题是要用牛顿法求对数似然函数 l(θ)l(\theta) 的最大值,也就是似然函数导数的零点,即迭代过程为: θ:=θ−l′(θ)l′′(θ)\theta := \theta - \frac{l^{'}(\theta)}{l^{''}(\theta)}如果 θ\theta 为向量,就会想,函数对向量求导怎么求? 所以查了一下:1. 标量对向量求导:结果是向量原创 2017-10-03 14:35:21 · 8259 阅读 · 2 评论 -
【机器学习笔记】最大似然估计法与LR中 J of theta 的概率解释
看公开课的时候再次遇到,决心搞懂他…首先是Andrew Ng在公开课中提到为什么LR的损失函数要用最小二乘,给出了概率解释,是在样本误差服从IID,并且误差整体服从高斯分布的最大似然函数的log表出。最大似然估计法先从一个比较普遍的例子讲起:如果做一个放回的小球实验,袋子里即有不确定数量的黑色和白色的小球,我们每次拿出一个,记录颜色放回,重复100次;如果在100次中,有70次黑球,30次白球,设每原创 2017-10-02 20:20:01 · 1293 阅读 · 0 评论 -
【机器学习笔记】Locally Weighted Regression (Loess)
非参数学习算法参数数量随着训练集大小增长Locally Weighted Regression(Loess)简单来说就是事先不用确定参数数量(模型), 每次预测的时候,用指定的样本点周围的样本点进行临时训练,确定参数;like this:选定中心点 xx 周围 nn 个点 x(i),...x(n)x^{(i)},...x^{(n)}定义 θ:[θ1,...,θn]\theta:[\theta_原创 2017-10-02 20:40:30 · 1626 阅读 · 1 评论 -
【机器学习笔记】判别模型和生成模型(贝叶斯估计)
先验和后验的区别先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率. 先验概率通常是经验丰富的专家的纯主观的估计. 判别模型不妨重新考虑一下LR的过程来理解,因为这就是一个判别模型,我总是在用这个例子。 我们有一堆样本点 (x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) , 希望通过原创 2017-10-08 22:20:25 · 1833 阅读 · 0 评论 -
【机器学习笔记】SVM part2: 核函数与SMO算法
回顾我们之前的问题: 之前我们说到,假设我们了 α\alpha, 又有样本点数据,我们很容易由 w=∑mi=1αiy(i)x(i)w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)} 得出 ww, 同时也求得了 bb那么就得到了这个分类面 wTx+bw^Tx+b ,我们换一种表示方法: wTx+b=(∑i=1mαiy(i)x(i))Tx+b=∑i=1mαiy(i)<x(i)原创 2017-09-03 17:34:36 · 2172 阅读 · 0 评论 -
Apriori算法
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间范围内找到频繁项集。关联分析是在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:原创 2017-09-07 17:45:21 · 420 阅读 · 0 评论 -
【机器学习笔记】SVM part1: 线性SVM
前言先说我对线性SVM的整体理解吧: 其实就是一个最优间隔的二分类器(如下图) 目标就是找到中间那个最优的分类超平面,而如图在虚线上的点,就是所谓的支持向量(support vectors) 。在求解这一问题的时候用到了对偶问题来帮助解决(为什么要用对偶问题?)而想要这样的话,我们定义了一个满足KKT条件的原问题,这里很巧妙的一点在于,KKT 的总体思想是认为极值会在可行域边界上取得,我觉得这一原创 2017-08-26 19:20:58 · 702 阅读 · 0 评论 -
Word2vec 入门(skip-gram部分)
Skip-gram给定句子中一个特定的词(input word),随机选它附近的一个词。网络的目标是预测 我们选到这个附近词的概率。输入,输出取窗口大小为2(前后两个词):得到一些词对: 如之中的(quick, brown) 训练神经网络时: 输入quick的one-hot编码, 输出层softmax分层的brown的概率应该是最大的隐层:我们训练一个简单的网络来执行一个任务,但是我们实际原创 2017-08-15 21:28:45 · 3667 阅读 · 1 评论 -
Softmax
自己的一点理解,感觉还是要记下来…Softmax 是将LR用于多分类, 就按照类比的思路写下来。先简单说一下LR首先,还是要基于这个框架(如下)做一个假设函数 (hypothesis function) 假设自变量 x 是多维向量,也可以理解为多维特征吧: x=[x1,x2,...,xn]x = [x_1, x_2, ..., x_n] 我们就可以把假设函数设为: 为了简化,x0=1原创 2017-08-15 12:15:08 · 447 阅读 · 0 评论 -
神经网络笔记(BP)
BackPropagation:http://www.cnblogs.com/charlotte77/p/5629865.html 作者结合ufldl讲的十分透彻,以致于我不知道该写些什么好… 相信这是一个很好的入门教程。sigmoid 函数 和 双曲正切(tanh)函数sigmoid函数: 双曲正切函数: tanh函数是sigmoid函数的一种变体,它的取值范围为 [−1,1]\tex原创 2017-08-17 10:25:02 · 345 阅读 · 0 评论 -
【机器学习笔记】权衡 bias 和 variance
Training error & Generalization errorTraining error 是说对于一个假设 hh ,在 mm 个样本中,hh 分类错误的个数:ϵ^(h)=1m∑i=1m1{h(x(i))≠y(i)}\hat\epsilon(h)=\frac{1}{m}\sum_{i=1}^m1\{h(x^{(i)})\ne y^{(i)}\}Generalization error 是原创 2017-10-17 15:35:32 · 679 阅读 · 0 评论