研究
文章平均质量分 54
chjjunking
这个作者很懒,什么都没留下…
展开
-
矩阵复习一
正交组:如果两个向量的内积为0,那么就说这两个向量是正交的。两个正交的向量互相垂直。欧式空间V中任何两个正交的非零向量组{a1,a2,…,am}都叫V的正交组。若|ai|=1(i=1,2,…,m)(单位向量),则称正交组{a1,a2,…,am}为标准正交组,也就相当于是坐标。正交组性质:若{a1,a2,…,am}是欧氏空间V的一个正交组,则a1,a2,…,am线性无关。给定向量组A:a1, a2,…, am, 如果存在不全为零的数 k1, k2, ···,km , 使k1.a1 +k2.a2 + ·原创 2010-09-17 22:29:00 · 3014 阅读 · 0 评论 -
强大的矩阵奇异值分解(SVD)及其应用
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html转载 2011-05-21 00:51:00 · 1768 阅读 · 0 评论 -
推荐系统五大问题
<br />推荐系统五大问题发表于:2010年03月18日 分类:产品评论, 电子杂志, 精华 2 条评论 <br />本文翻译于互联网观察媒体“读写网”在2009年初发布的一篇文章。<br />读写网在2009年初的时候编辑了一系列针对推荐系统的文章,在荷兰阿姆斯特丹举办的一次专门针对推荐系统的兴趣小组会议上,一些公司提出了实施和建设推荐系统需要面对的几个问题,本文针对这些问题,进行了初步的分析。在此与大家分享:1. 缺少数据<br />对于推荐系统来说,可能最大的问题就是需要大量的数据才能产生推转载 2011-05-20 17:00:00 · 931 阅读 · 0 评论 -
bootstraping算法:meta-bootstrapping与basilisk差别
原文摘自:Learning Subjective Nouns using Extraction Pattern Bootstrapping3.1 Meta-BootstrappingThe Meta-Bootstrapping (“MetaBoot”) process (Riloff and Jones, 1999) begins with a small set of seed words that represent a targeted semantic category (e.g., 10 word原创 2011-05-26 21:15:00 · 2531 阅读 · 0 评论 -
介绍熵的好网站
http://www.survivor99.com/entropy/zxw/C8c.htm原创 2011-05-28 16:38:00 · 996 阅读 · 0 评论 -
最大熵模型
<br /><br /> 最大熵模型:读书笔记<br /> 胡江堂,北京大学软件学院<br />1. 物理学的熵<br />2. 信息论的熵<br />3. 熵和主观概率(一个简单注释<br />4. 熵的性质<br />4.1. 当所有概率相等时,熵取得最大转载 2011-05-28 19:06:00 · 13142 阅读 · 0 评论 -
自然语言处理之二:隐马尔科夫模型
在谈最大熵马尔科夫模型之前,先熟悉一下隐马尔科夫模型一个隐马尔可夫模型 (HMM) 是一个五元组:(ΩX , ΩO, A, B, π )其中: ΩX = {q1,...qN}:状态的有限集合 ΩO = {v1,...,vM}:观察值的有限集合 A = {aij},aij = p(Xt+1 = qj |Xt = qi):转移概率 B = {bik},bik = p(Ot = vk | Xt = qi):输出概率 π = {πi}, πi = p(X1 = qi):初始状态分布问题1:给定观察序列O=原创 2011-05-28 21:25:00 · 1763 阅读 · 0 评论 -
自然语言处理之三:最大熵马尔科夫模型
<br />最大熵马尔科夫,看了N遍了。终于有点眉目。<br /> <br />最大熵马尔科夫在建模的时候考虑的问题和ME(最大熵模型)其实是一样的。<br /> <br />同样是马尔科夫的三个基本问题。<br /> <br /><br />问题1:给定观察序列O=O1,O2,…OT,以及模型 λ=(π, A, B), 如何计算P(O|λ)? <br />问题2:给定观察序列O=O1,O2,…OT以及模型λ,如何选择一个对应的状态序列 S = q1,q2,…qT,使得S能够最为合理的解释观察序原创 2011-05-31 00:04:00 · 5762 阅读 · 0 评论 -
自然语言处理之一:最大熵模型
<br />一直对自然语言处理中的各种模型一知半解。总是抓不住它们的思想。<br />今天看了一下这个“最大熵模型”(A Maximum Entropy Approach to Natural Language Processing),写写自己的想法吧。呵呵。<br /> <br />就像论文中所说的:希望找到一个最佳的uniform。也就是在模型的建立时,将所有已知的事实建入模型中,而对于未知的则尽量的使它们一致。<br />比如我们目前只知道的事实是某个随机变量取值的概率分布具有约束条件:<br原创 2011-05-28 17:07:00 · 3413 阅读 · 0 评论 -
决策树的优点
决策树的优点相对于其他数据挖掘算法,决策树在以下几个方面拥有优势:决策树易于理解和实现. 人们在通过解释后都有能力去理解决策树所表达的意义。 对于决策树,数据的准备往往是简单或者是不必要的 . 其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 能够同时转载 2011-08-30 10:28:18 · 10064 阅读 · 0 评论 -
并行算法的评价方法
并行算法通常包含三种评价的方法,用来评价算法各方面的优劣。1.speedup评测speedup的方法是,保持数据不变,增加计算机的数目。计算机数目为m时的speedup计算方法如下:speedup(m)=在一台机器上面使用的时间/在m台机器上面使用的时间。原创 2011-10-07 11:20:16 · 2249 阅读 · 0 评论 -
线性判别分析(LDA)
<br /> <br />线性判别分析(LDA) 是指在输入变量上构造线性判别函数的方法。即寻找一种变换,使得在某种意义下类间分离性最大,类内相异性最小。相对于PCA来讲,他是一种有监督的维数约简方法。<br /> <br /> <br />1.在d维的特征空间中:<br />(1)各类样本均值向量mi<br />mi=1/Ni∑x∈Xix i=1,2<br />(2)样本类内离散度矩阵Si和总类内离散度矩阵Sw.<br />Si=∑x∈Xi(x-mi)(x-mi)T i=1,2<br />Sw=S1+S2原创 2010-11-03 19:14:00 · 1411 阅读 · 0 评论 -
PCA与SVD
<br /><br /> PCA 跟一个数学技术 ———奇异<br />值分解( SVD) 关系非常密切 ,且主分量分析跟奇<br />异值分解作用在数据的协方差矩阵上是相同的.原创 2010-11-03 18:14:00 · 4336 阅读 · 1 评论 -
图的拉普拉斯矩阵学习-Laplacian Matrices of Graphs
We all learn one way of solving linear equations when we first encounter linearalgebra: Gaussian Elimination. In this survey, I will tell the story of some remarkableconnections between algorithms, spectral graph theory, functional analysisand numerical li原创 2010-10-11 23:18:00 · 15151 阅读 · 3 评论 -
定义:NMF-Non-negative matrix factorization 非负矩阵因式分解
<br />简单地说,即是将一个矩阵X像因式分解一样分解成两个矩阵W和H:nmf(X)->WH。 并且W和H应该为非负的。<br /> <br />近似的NMF:<br /> <br />通常求得的为一个近似的值,因此NMF过程可以写成:<br />X=WH+U。其中U可以看作是余数。<br /> <br />有不同方式的NMF,这依不同的损失函数(cost functions)而定,而这些损失函数是用来测量X和WH之间差别的,或者使用归一化的W和H。<br /> <br />有很多计算NMF的方法<br原创 2010-10-12 12:16:00 · 4760 阅读 · 0 评论 -
NMF的应用-读Daniel D.Lee nature上的论文总结-Learning the parts of objects by non-negative matrix factorization
<br /> <br />Learning the parts of objects by non-negative matrix factorization<br /> <br /> <br /> <br />由于NMF使用非负矩阵来分解原有矩阵(V=WH),因此,在分解时,只会进行“加”操作数据,不会进行减操作,因此在进行因式分解时。W可以当做提取出来的各个相关度不大的特征,也就是其中所说的Basis images和whole faces,而H可以表示编码encoding。<br /> <br />正是原创 2010-10-13 14:48:00 · 4700 阅读 · 0 评论 -
Orthogonal Nonnegative Matrix Tri-factorizations for Clustering
文章对:Orthogonal NMF(正交非负矩阵分解)与kernel K-means之间的关系进行了分析,并证明两者有内在联系:定理一:Orthogonal NMF:min(F>=0,G>=0)||X-FGT||2,s.t. GTG=I与K-means聚类是相等同的。该证明可以查看: C. Ding, X. He, and H.D. Simon. On the equivalence of nonnegative matrix factorization and spectral clustering.原创 2010-10-16 15:55:00 · 4658 阅读 · 1 评论 -
Latent semantic Indexing(LSI)
Because of the tremendous diversity in the words people use to describe the same document,lexical methods are necessarily incomplete and imprecise. Using the singular value decomposition (SVD), one can take advantage of the implicit higher-order structure原创 2010-12-11 14:00:00 · 1006 阅读 · 0 评论 -
矩阵复习三-正交矩阵
如果ATA=I,则A为正交矩阵。A为正交矩阵,则有:A的列向量组为一组标准正交基。原创 2010-10-28 00:39:00 · 4119 阅读 · 0 评论 -
矩阵复习二
<br /> <br />当矩阵的行列式不为0时,该矩阵为非奇异矩阵<br />|A|=det(A)!=0<br /> <br />AB=AC,当A为非奇异时,有B=C。<br /> <br />两个上三角矩阵相乘还是上三角矩阵。<br /> <br />A,B两个n阶矩阵,有|AB|=|A||B|。<br /> <br />|A|2=|A||AT|=|AAT|<br /> <br />|A|=|AT|<br /> <br /> <br />可逆矩阵:<br />对于矩阵A,B,有<br />AB=BA=I原创 2010-10-28 00:32:00 · 1087 阅读 · 0 评论 -
矩阵复习四-特征值与特征向量
A为复数域上的n阶矩阵,a为复数,x为非零向量。如果:Ax=ax则a是矩阵A的特征值,x是矩阵A的属于特征值a的特征向量。x!=0即(aI-A)x=0有非0解即满足方程det(aI-A)=0的a都是A的特征值。特征值即是多项式det(aI-A)=0的根。(注:A为m*n的矩阵,齐次线性方程组Ax=0有非零解的充要条件是rank(A)只有零解得充要条件是rank(A)=A的列数n。当A为n*n时,有非零解(只有零解)的充要条件也可叙述为:|A|=0(|A|!=0)。)特征矩阵:aI-A.特征值和特征多项式的性原创 2010-10-28 22:49:00 · 3650 阅读 · 0 评论 -
非负矩阵分解算法
非负矩阵分解Matlab代码下载关键词: 非负矩阵分解 NMF Matlab 代码 下载 矩阵分解是实现大规模数据处理与分析的一种有效工具. 非负矩阵分解(non-negative matrix factorization,NMF)算法是在矩阵中所有元素均为非负的条件下对其实现的非负分解,这为矩阵分解提供了一种新的思路. 非负矩阵分解方法在智能信息处理和模式识别研究领域具有十分重要的应原创 2010-10-30 22:33:00 · 2010 阅读 · 0 评论 -
矩阵应用:PCA-Principal Component Analysis
<br />方差<br />s2=∑ni=1(Xi-E(X))2/(n-1)<br />协方差<br />cov(X,Y)=∑ni=1(Xi-E(X))(Yi-E(Y))/(n-1)<br />协方差矩阵<br />Cn*n=(Cij,Cij=cov(Dimi,Dimj))。<br /> <br />PCA步骤:<br />第一步:获得数据。<br />第二步:对于每一维的数据,用平均值除之。使得每一维的和为0。<br />第三步:之后,计算协方差矩阵C(对称矩阵)。<br />第四步:计算协方差矩阵的特征原创 2010-10-30 21:51:00 · 2718 阅读 · 1 评论 -
AUC(Area Under roc Curve )计算及其与ROC的关系
让我们从头说起,首先AUC是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度;在信息检索(IR)领域中常用的recall和precision,等等。其实,度量反应了人们对” 好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不同时期流行的度量则反映了人们认识事物的转载 2010-10-11 12:30:00 · 59976 阅读 · 15 评论