![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
dm
aalbertini
这个作者很懒,什么都没留下…
展开
-
feture selection
F-score:对第i个属性, 有xi+, xi_, xi; 分别表示正类样本中该属性的均值、 负类样本中该属性的均值, 所有样本中该属性的均值n+表示正类样本个数, n-表示负类样本个数 (xi+ - xi)^2 + (xi_ - xi)^2F(i) = ------------------------------------------原创 2011-06-25 17:26:00 · 1130 阅读 · 1 评论 -
转 LDA入门
<br />http://blog.csdn.net/warmyellow/archive/2010/04/06/5454943.aspx原创 2011-03-21 17:20:00 · 525 阅读 · 0 评论 -
特征提取 notes
<br />特征获取<br /> 从N个特征集合中选择M个特征的子集, 并满足M<=N<br /> 1, 特征提取:是一种变换,将处于高位空间的样本通过映射或变换的方式转换到低维空间,达到降维目的<br /> 2, 特征选择:从一组特征中去除冗余或不相关的特征来降维<br /> 二者通常结合使用, 如先映射到低维空间、再去除冗余和不相关特征<br /> <br />特征获取的两个问题<br /> 1, 确定选择算法: 在允许时间内, 找出最小的、最能描述类别的特征组合<b原创 2011-03-18 16:01:00 · 2447 阅读 · 0 评论 -
SVD notes
1 特征值与特征向量 A * vi = li * vi, 则称vi为A的特征向量, li为该特征向量对应的特征值。 vi为列向量。若vi点乘vi、 vi'*vi 结果为1,则称vi为单位特征向量 若一组正交的单位特征向量vi, i from 1 to n, 构成矩阵V = {v1 v2 ... vn} A * V = {Av1 Av2 ... Avn} = {l1v1 l2v2 ... lnvn} = {v1 v2 ... vn} * D, D是n*n的对角矩阵,原创 2011-03-18 14:51:00 · 3751 阅读 · 1 评论 -
dm 重要资料链接
cnblogs leftnoteasyhttp://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.htmlforever albumhttp://foreveralbum.yo2.cn/articles/latent-semantic-analysis-note.html原创 2011-03-18 14:53:00 · 765 阅读 · 0 评论 -
LSA
http://blog.csdn.net/aalbertini/archive/2011/03/18/6259066.aspx1) 将Term Document矩阵进行svd, 得到 TSD' 2) 对于新文档构成的列向量Q, 计算其文档坐标 Dq=Q'TS"3) Dq 与 DS的行向量计算夹角, 判断距离因此看, LSA的作用是进行相关性判断SVD的作用: 降维。 降维的同时达到了潜在语义索引的目的。SVD、降维之后得到近似term document矩阵AA*A'中的元素(i,j)表示第i个te原创 2011-03-18 17:26:00 · 969 阅读 · 1 评论 -
pca 特征抽取
主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n ′ m 的数据矩阵, n 通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但原创 2011-03-17 16:21:00 · 9006 阅读 · 2 评论 -
KL变换
<br />K-L变换1.K-L变换的定义<br /> 以矢量信号X的协方差矩阵Ф的归一化正交特征矢量q所构成的正交矩阵Q,来对该矢量信号X做正交变换Y=QX,则称此变换为K-L变换(K-LT或KLT),K-LT是Karhuner-Loeve变换的简称,有的文献资料也写作KLT。可见,要实现KLT,首先要从信号求出其协方差矩阵Ф,再由Ф求出正交矩阵Q。Ф的求法与自相关矩阵求法类似。 2.K-L变换的特性<br /> (1)去相关特性。 <br /> K-L变换是变换后的矢量信号Y的分量互不相关。 <b原创 2011-03-17 16:09:00 · 18335 阅读 · 2 评论 -
KL距离 相对熵
<br />比如利用相对熵进行分类或者是利用相对熵来衡量两个随机分布的差距,当两个随机分布相同时,其相对熵为0.当两个随机分布的差别增加时,器相对熵也增加。我们下面的实验是为了横量概率分布的差异。方法:<br />D(p//q)=sum(p(x)*log(p(x)/q(x)))。其中p(x)和q(x)为两个概率分布<br />约定 0*log(0/q(x))=0;p(x)*log(p(x)/0)=infinity;<br /> <br />D(p//q) 与 D(q//p) 无对称性原创 2011-03-17 16:04:00 · 6556 阅读 · 1 评论 -
public code
http://homepages.inf.ed.ac.uk/rbf/IAPR/researchers/MLPAGES/mlcode.htmhttp://www.ima.umn.edu/~iwen/REU/REU_cluster.htmlhttp://services.cbu.uib.no/software//spectrumclustering原创 2010-08-23 18:14:00 · 684 阅读 · 0 评论 -
决策树
gini impurity:pa = 0;for i in set for j in set if i==j continue; else pa += pi * pj;pa就是该集合的gini impurity. pi表示i在集合中出现的概率熵:pa = 0;for i in set pa += -sigma(pi * log(pi))pa, pi意义如上这两种方式用来衡量决策树过程中,当前这一决策的好坏通常采用熵的方式; 熵对混乱集合的判罚更重一些。递归构造决策树:已知一个原创 2010-08-20 10:34:00 · 921 阅读 · 0 评论 -
优化
<br />问题: 受多种变量影响, 希望成本函数最小<br /> <br />1 随机搜索<br />每次随机为每种变量设值, 计算成本函数; 取其中成本最小的赋值作为结果<br />缺点: 效果不太好<br /> <br />2 爬山法<br />以一个随机解开始, 然后在该随机解临近的解中选择一个最优解; 迭代直至不能找到更更优的<br />缺点: 容易陷入局部最优解<br />-----: 可以随机选定不同的点进行爬山,得到更优解<br /> <br />3 模拟退火<br />初始阶段会接受更原创 2010-08-19 16:13:00 · 610 阅读 · 0 评论 -
转 LDA入门
<br />LDA算法入门<br /> <br />一. LDA算法概述:<br />线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小原创 2011-03-21 17:20:00 · 1093 阅读 · 1 评论 -
向量的导数
<br />由向量导数的定义,若向量函数f=(f1,f2,...fn)在点θ(θ1,θ2,...θm)处可导,则其导数为一个矩阵: <br /> #(f1,θ1) #(f1,θ2) ... #(f1,θm) <br /> #(f2,θ1) #(f2,θ2) ... #(f2,θm) <br /> ................................ <br />原创 2011-03-22 18:04:00 · 1895 阅读 · 0 评论 -
贝叶斯网络
<br />http://book.51cto.com/art/200906/130605.htm<br /> <br /> 贝叶斯网络基本知识: 1) 基本概率定理p(A) + p(A') = 1. A与A‘互补若A B独立, p(A, B) = p(A) * p(B)若A 、B在条件C下独立, 则p(A,B|C) = P(A|C) * P(B|C) p(A, B) = P(A|B)*P(B) = P(B|A)*P(A) 永远成立若独立, P(A|B) = P(A, B)/P(B) = P(A)*原创 2011-04-26 15:55:00 · 1295 阅读 · 0 评论 -
特征选择---文本分类:叉方统计量
counts:计数。 记录样本集中每个样本的每个属性的在每个类中出现的加权次数counts[data.numAttributes()][numValues + 1][numClasses + 1]m_ChiSquareds[data.numAttributes]; //记录每个属性的叉方值for(int i = 0; i m_ChiSquareds[i] = chiVal(counts[i]);chiVal: nrows = matrix.length;原创 2011-04-08 18:13:00 · 1079 阅读 · 1 评论 -
特征选择--文本分类: 信息增益
<br />counts:计数。 记录样本集中每个样本的每个属性的在每个类中出现的加权次数<br />counts[data.numAttributes()][numValues + 1][numClasses + 1]<br /> <br />m_InfoGains[data.numAttributes]; //记录每个属性的增益值值<br />for(int i = 0; i < data.numAttributes(); i++)<br /> m_InfoGains[i] = (Conting原创 2011-04-08 19:03:00 · 1393 阅读 · 0 评论 -
weka: naive bayes
m_NumClasses 训练数据中类的个数m_NumAttributes 属性的个数m_Instances 训练数据m_ClassDistribution 类的概率分布, 即P(C)。 其类型是Estimator, 估值器m_Distributions[m_NumAttributes][m_NumClasses] 每个属性在每个类中的概率分布。 其类型也是Estimator。1) 数值类型要用连续分布的E原创 2011-04-01 18:04:00 · 4489 阅读 · 1 评论 -
weka: FCBFSearch
paper:Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution.Feature selection method based on correlation measure and relevance redundancy analysis. Use in conjunction with an attribute set evaluator通过对特征集的相关性 以及 冗余分析做评价//TO原创 2011-03-31 18:22:00 · 2286 阅读 · 0 评论 -
weka: exhaustive search
穷举搜索。假设10个属性, 需要找出2^^10 种可能情形中, 那种的merit最优。每次直接根据迭代次数space产生属性集code: //best_group 初始为空 //best_merit初始为空best_group的merit //假设有10个属性, 那么需要搜索 2^^10 - 1 = 1023 次 BigInteger searchSpaceEnd = BigInteger.ONE.add(BigInteger.ONE).pow原创 2011-03-31 17:41:00 · 2309 阅读 · 0 评论 -
weka: best first search
ASSearch 搜索算法类ASEvaluation 特征结果集评价算法类。该类有接口接受样本输入AttributeEvaluation 单个特征的评价类AttributeSetEvaluation 特征集的评价类AttributeSelection 特征选择类,接受ASSearch与ASEvaluation作为输入AttributeTransformer 数据转换类Best First Search:m原创 2011-03-31 16:46:00 · 4304 阅读 · 2 评论 -
relief
<br />Relief [generation=heuristic, evaluation=distance].•Basic algorithm construct :- each feature is assigned cumulative weightage computed over a predefined number of sample data set selected from the training data set.- feature with weightag转载 2011-03-31 22:42:00 · 1053 阅读 · 0 评论 -
weka: backwards with delete
<br />paper:<br />Mark Hall, Eibe Frank: Combining Naive Bayes and Decision Tables. In: Proceedings of the 21st Florida Artificial Intelligence Society Conference (FLAIRS)<br /> <br /> <br />code:<br />// best_group初始包含所有属性 // main search loop b原创 2011-03-31 17:27:00 · 860 阅读 · 0 评论 -
em notes
零<br />K 类个数, M term个数, N doc个数。<br /> <br /> <br /> 一<br /><br /><br />qmk是term m在类k中出现的概率。<br />16.14式的左边含义就是在模型未知参数theta的情况下,类k中包含文档d的概率<br />右边就是d内的所有term出现在类k中的概率连乘积,与d内未出现的term的补(1-q)的连乘积<br /> <br /> <br /> 二<br /> <br /><br />和16.14式不同的是,无wk了。<br /原创 2011-03-30 17:10:00 · 719 阅读 · 0 评论 -
贝叶斯与门后奖
链式法则 P(A, B) = P(A交B) = P(A|B)*P(B) = P(B|A)*P(A)分划 P(B) = P(A, B) + P(A', B) A'为A的补贝叶斯: P(A|B) = P(B|A)P(A)/P(B) = [P(B|A)/(sigmaP(B|X)P(X))]*P(A); x为A ,A'其中P(A)为先验概率, P(A|B)为当B发生后A的后验概率; P(B|A)称为A发生情况下B的likelihood某节目, 三个门 xyz, 只有一个门后面有奖品。 选手原创 2011-03-23 15:38:00 · 1192 阅读 · 1 评论 -
em 流程示例解释
1 极大似然估计:已知两枚硬币, 每次等概率随机选择其中1枚掷10次, 正面记为H, 反面为T;其中A被选中3次, B被选中2次; 每次的正反次数见图上半部分。则可以估计A掷出正面的概率就是 total(A.H)/total(A) = 24/30=0.8, 同理可得B正面的概率是 0.45问题很简单, 解答也很直观。问题改变如下:2 A,B总共掷了5次, 但不知道A被选中几次、哪次是A掷出来的,更不知道A掷出正面的概率; 也不知道B的这些信息。 如何求出A、B掷出正面的概率?解答过程:A、B掷出正面是原创 2010-08-13 18:31:00 · 1125 阅读 · 6 评论 -
[code] em
EM_init 中调用多次kmeans, 取得其中最佳的聚类结果, 并赋值: m_num_clusters = bestK.numberOfClusters(); m_weights = new double[inst.numInstances()][m_num_clusters]; m_model = new DiscreteEstimator[m_num_clusters][m_num_attribs]; m_modelNormal = new double[m_num_clus原创 2010-08-11 15:18:00 · 1085 阅读 · 3 评论 -
simple k means
<br />//选择初始的k个质点for (int j = initInstances.numInstances() - 1; j >= 0; j--) { instIndex = RandomO.nextInt(j+1); hk = new DecisionTableHashKey(initInstances.instance(instIndex), initInstances.numAttribut原创 2010-08-09 14:35:00 · 1084 阅读 · 1 评论 -
用LIBSVM做回归和预测的步骤
<br />http://liouwei20051000285.blog.163.com/blog/static/2523674201002610519709/<br />原创 2010-07-20 14:38:00 · 2542 阅读 · 0 评论 -
weka & libsvm
<br /> http://liouwei20051000285.blog.163.com/blog/static/25236742010415101830866/<br />以WEKA 3.5.4为例(3.4版的不支持)<br />把libsvm.jar 和wlsvm.jar 两个文件放到weka的安装目录下。然后打开runweka.ini这个文件,把<br />cmd_default=javaw -Xmx#maxheap# -classpath "%CLASSPATH%;#wekajar#" #main原创 2010-07-20 14:32:00 · 3103 阅读 · 0 评论 -
在weka中配置自己的算法 zz
<br />http://liouwei20051000285.blog.163.com/blog/static/2523674201052394826984/<br />1 在weka中新建一个包,比如建立 报名为"weka.classifiers.myalgorithm"的包.<br />2 在"weka.classifiers.myalgorithm"包中写好自己的代码,这里方便起见,我直接在"weka.classifiers.trees"包下复制ID3算法的java文件添加到"weka.classi原创 2010-07-20 14:25:00 · 1443 阅读 · 3 评论 -
libsvm学习 all
<br />http://wenku.baidu.com/view/f2223ad9ad51f01dc281f140.html原创 2010-07-20 15:08:00 · 713 阅读 · 0 评论 -
LibSVM学习 all
<br />LibSVM学习(一)——初识LibSVM<br />LibSVM是台湾林智仁(Chih-Jen Lin) 教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。<br /> 这套库可以从http://www.csie.ntu.edu.tw/~cjlin/免费获得,目前已经发展到2.89版。下载.zip格式的版本,解压后可以看到,主要有5原创 2010-07-20 15:03:00 · 3085 阅读 · 0 评论 -
LibSVM学习(三)——LibSVM使用规范
<br /> 其实,这部分写也是多余,google一下“libsvm使用”,就会N多的资源,但是,为了让你少费点心,在这里就简单的介绍一下,有不清楚的只有动动你的mouse了。需要说明的是,2.89版本以前,都是svmscale、svmtrain和svmpredict,最新的是svm-scale、svm-train和svm-predict,要是用不习惯,只需要把那四个exe文件名去掉中间的短横线,改成svmscale、svmtrain和svmpredict就可以了,我们还是按原来函数名的讲。<br />原创 2010-07-20 14:53:00 · 804 阅读 · 0 评论 -
LibSVM学习(二)——第一次体验libSvm
<br /> 1. 把LibSVM包解压到相应的目录(因为我只需要里面windows文件夹中的东东,我们也可以只把windows文件夹拷到相应的目录),比如D:/libsvm。<br /> <br /> 2. 在电脑“开始”的“运行”中输入cmd,进入DOS环境。定位到d:/ libsvm下,具体命令如下:<br /> <br /> d: (回车)<br /> cd /libsvm/windows (回车)<br />原创 2010-07-20 14:52:00 · 747 阅读 · 0 评论 -
Weka学习二(聚类算法)
<br />http://liouwei20051000285.blog.163.com/blog/static/25236742009101610445275/<br />上次我介绍了分类器的使用方法,这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与分类算法(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)这个我会在后面的文章中重点介绍。所谓无监督学原创 2010-07-20 14:44:00 · 2082 阅读 · 0 评论 -
libsvm2.9数据格式
所有关于libsvm2.9的前期工作准备好以后,就必须考虑将自己的数据转换为libsvm对应的格式来做分类验证的问题<br /><br />训练与测试数据文件的格式如下所示<br /><label> <index1>:<value1> <index2>:<value2>…<br />.<br />.<br />.<br />每行包含一个实例,并且以字符’/n’结束。对于分类来讲,<label>是整型数据,表示类别(支持多分类)。对于回归来讲,<label>是任意实数(浮点数),表示目标值。one-class原创 2010-07-20 14:40:00 · 904 阅读 · 0 评论 -
开源机器学习:R Meets Weka zz
<br />http://liouwei20051000285.blog.163.com/blog/static/2523674201052844649212/<br />背景介绍: <br />1)Weka:<br />Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/~ml/weka/)。我们这里当然要介绍的是第二种意思啦,Weka项目从199原创 2010-07-20 14:21:00 · 1086 阅读 · 0 评论 -
Weka学习四(属性选择)
<br />在这一节我们看看属性选择。在数据挖掘的研究中,通常要通过距离来计算样本之间的距离,而样本距离是通过属性值来计算的。我们知道对于不同的属性,它们在样本空间的权重是不一样的,即它们与类别的关联度是不同的,因此有必要筛选一些属性或者对各个属性赋一定的权重。这样属性选择的方法就应运而生了。<br />在属性选择方面InfoGain和GainRatio的比较常见,也是最通俗易懂的方法。它们与Decision Tree的构造原理比较相似,哪个节点拥有的信息量就为哪个节点赋较高的权重。其它的还有根据关联度的办原创 2010-07-20 14:46:00 · 1809 阅读 · 0 评论 -
Weka学习五(ROC简介)
<br />今天我们来介绍一下ROC(Receiver operating characteristics)国内复旦张文彤老师在《SPSS统计分析基础教材》中将其翻译成“受试者工作特征”,也有按字面意思译成“接受者操作特征曲线”。到底选择哪一个大家自便吧。ROC曲线是有TP(True positive rate)、FP(Flase positive rate)构成的,以TP作为Y轴,FP作为X轴。<br /><br /><br /> <br />对于一个离散型分类器(discrete classifier)原创 2010-07-20 14:47:00 · 6584 阅读 · 0 评论