数据挖掘
文章平均质量分 50
muye5
这个作者很懒,什么都没留下…
展开
-
SVM中令 WX + b = 1的理解
都知道SVM中的核心就是找到一个超曲面来实现样本点的线性可分,那么对于多个可用的超曲面来说,哪个是最好的呢?Answer:SVM对超曲面选取的标准是:max margin每一个候选的超曲面对应都有一个margin,我们选的就是让这margin最大的超曲面!而这里定义的一个超曲面的margin指的是所有的样本点到该超曲面的几何距离的最小值。需要注意的是,对于任意一个超曲面,都原创 2013-05-27 17:20:21 · 4231 阅读 · 0 评论 -
《深入浅出统计学》之GB术语表
英文 中文population 总体sampling unit 抽样单元sample 样本observed value 观测值descriptive statistics 描述性统计量random sample 随机样本simple转载 2014-03-09 16:02:54 · 2107 阅读 · 0 评论 -
多变量线性回归的解析解
原创 2014-03-07 01:00:31 · 2008 阅读 · 0 评论 -
Naive Bayes VS Logistic Regression
NB和LR的区别http://www.quora.com/What-is-the-difference-between-logistic-regression-and-Naive-Bayeswww.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf作为生成模型NB从样本数据中模拟P(X|Y)和P(Y),而作为判别模型的LR,直接对数据lable:Y原创 2014-02-18 15:17:45 · 4843 阅读 · 0 评论 -
Dirichlet Distribution Nomalizing Constant
原创 2014-02-22 02:13:08 · 940 阅读 · 0 评论 -
关于bias 和 variance
一篇blog写的不错http://www.ryanzhang.info/archives/1989原创 2014-01-03 15:04:01 · 990 阅读 · 0 评论 -
线性回归 最小二乘 梯度下降 随机梯度下降
一下午只弄清楚这一个问题了,记录一下,有点乱:先从线性回归问题说起,为了对样本点进行拟合求得拟合函数来进行对新的输入做出预测,便设计了一个衡量拟合函数好坏的标准,其实标准有很多:可以是SUM{|f(Xi) - Yi|} / N; 也可以是SUM{|f(Xi) - Yi|^2} / N;因为对于不同的拟合函数,样本点是相同的,那N就是一样的,所以可以直接比较:1.SUM{|f(Xi) -原创 2013-06-15 19:09:31 · 3163 阅读 · 0 评论 -
感知机算法
感知机算法处理的数据必须是线性可分的,否则无法停下来算法:While (True) { Bool flag = False ForI in N If Yi * (W内积Xi) W= W + YiXi flag = Trueif !fla原创 2013-12-16 21:48:23 · 873 阅读 · 0 评论 -
关于点到直线距离的理解
一、先以2维空间为例:对于一条直线,我们一般表示成:y = kx + b或者表示成:ax + by + c = 0这里的第二种表示其实还可以转换成这样:(a, b)(x, y) + c = 0即表示成两个向量的乘积的形式,而这里的(a, b)正是直线的法向量,而 k 的值就等于 -a / b那么为什么:(a, b)(x, y) + c = 0 可以表示二维空间的一条唯一直线呢?原创 2013-05-27 16:38:53 · 3358 阅读 · 1 评论 -
AdaBoost
AdaBoost自适应增强,一直听说这个方法,觉得很高端,大半夜的记一下!自适应增强的思想是用多个弱分类器提升出一个强的分类器:强可学习和弱可学习是等价的!步骤:首先,你有一批数据作为训练集其次,你有一个学习分类模型的方法,而且你这个学习方法应该用到训练集中每个样本的权重,因为自适应增强方法就是通过不断增大上一轮分错样本的权重同时降低分对样本的权重的方法来不原创 2013-06-30 00:17:57 · 893 阅读 · 0 评论 -
最大熵
零星感悟:最大熵知之为知之,不知为不知论文:The Improved Iterative Scaling Algorithm: A Gentle Introduction核心思想:构造经验期望减去模型期望的差,然后让这个差等于零,此时的权重参数即为最优解的参数下面是看李航的>最大熵一章和论文推导时的一个疑惑,幸得别人指点明白了。在最大熵模型中,条件概率分布式这样的:原创 2013-06-26 16:38:17 · 898 阅读 · 0 评论 -
朴素贝叶斯
>:朴素贝叶斯这几个概念一直弄的糊里糊涂的~~~朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法!贝叶斯定理:P(A|B) = P(B|A) * P(A) / P(B)特征条件独立是指对于一个样本点X,表示成特征向量。说明样本空间是n维的,每个样本点有n个特征。下面说怎么用朴素贝叶斯法进行分类:朴素贝叶斯法是生成模型,就是说它是通过给定的样本集合,学习样原创 2013-06-22 21:08:40 · 1150 阅读 · 0 评论 -
漫画线性代数
刚才在看高桥的>,一开始觉得很简单,不过还是看到之前学的很多不扎实的地方:关于矩阵的理解,矩阵的逆运算,矩阵的行列式计算方法!尤其是对矩阵的理解,其实只用将一个矩阵考虑成一个空间变换,一个矩阵乘以一个向量,得到另一个全新的向量!而矩阵每一行的值都是旧向量在变为新向量的时候各个维度上的权重。而对于一个矩阵乘以一个矩阵可以看成是一个矩阵对多个原空间向量的变换。最初矩阵来自线性方程组的一种表原创 2013-07-08 13:27:47 · 1463 阅读 · 0 评论 -
Neural Netowrk : BackPropagation
截取自 Learn from data课件转载 2014-11-09 22:33:04 · 654 阅读 · 0 评论