datamining
文章平均质量分 63
我是一只小兔纸咿呀咿呀呦
To be a better me
展开
-
4种序列模式挖掘算法的比较分析
http://fpcheng.blog.51cto.com/2549627/829527 算法简介AprioriAll算法属于Apriori类算法,其基本思想为首先遍历序列数据库生成候选序列并利用Apriori性质进行剪枝得到频繁序列。每次遍历都是通过连接上次得到的频繁序列生成新的长度加1的候选序列,然后扫描每个候选序列验证其是否为频繁序列。GSP(generalized seq转载 2015-08-15 20:49:03 · 11225 阅读 · 0 评论 -
狄利克雷分布
http://blog.sina.com.cn/s/blog_67d185b801018r8l.htmlhttp://www.cnblogs.com/xlhblog/archive/2012/03/27/Statistics.html转载 2014-08-20 10:03:07 · 1847 阅读 · 0 评论 -
共轭分布
http://blog.csdn.net/xianlingmao/article/details/7340099如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的。现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗?我之前就常常把这个关系弄错,现在记录如下,以加强印象。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于i转载 2014-08-20 10:04:26 · 533 阅读 · 0 评论 -
LDA
http://blog.sina.com.cn/s/blog_8eee7fb60101czhx.html转载 2014-08-18 13:55:41 · 343 阅读 · 0 评论 -
数据分析与数据挖掘的区别
数据分析和数据挖掘的给你说道这么玄!数据分析就是为了处理原有计算方法、统计方法,着重点就是数据、算法、统计、数值。数据挖掘是从庞大的数据库中分析出有目标数据群,筛选出利于决策的有效信息数据分析的数据量可能不大,注重数值分析方法,往往是分析过往的数据、评价某时间段内取得的效果。数据挖掘的数据量极大,注重数据查询分析的可行性。 数据挖掘是着眼于预测未来,从大量的数据中寻找某些规转载 2014-07-15 22:04:41 · 1014 阅读 · 0 评论 -
主题模型
http://blog.sina.com.cn/s/blog_9d7bca9f01015580.html摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海转载 2014-07-28 14:06:44 · 605 阅读 · 0 评论 -
迁移学习(Transfer learning)
http://www.cnblogs.com/Gavin_Liu/archive/2009/12/12/1622281.html在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上来学习一个分类模型;然后利用这个学习到的模型来对测试文档进行分类与预测。然而,我们看到机器学习算法在当前的Web挖掘研究中存在着一个关键的问题:一些新出现的领域中的大量训练数转载 2014-07-31 09:49:38 · 675 阅读 · 0 评论 -
机器学习常见算法
http://blog.csdn.net/likika2012/article/details/14043667转载 2014-07-14 15:29:35 · 394 阅读 · 0 评论 -
EM
http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html转载 2014-07-13 17:33:45 · 307 阅读 · 0 评论 -
DMM基础
LDA模型的原理及其应用:http://www.docin.com/p-122070512.html原创 2014-07-29 15:42:02 · 2841 阅读 · 0 评论 -
主题模型-LDA浅析
http://blog.csdn.net/huagong_adu/article/details/7937616 上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相转载 2014-07-28 21:08:54 · 540 阅读 · 0 评论 -
sufficient statistics
统计量是样本数据的函数,在统计学中,T(x) 为未知分布P的参数θ的充分统计量,当且仅当T(x)可以提供θ的全部信息,也就是说,没有统计量可以提供关于θ的额外信息。统计量是实际上是一种对数据分布的压缩,在样本加工为统计量的过程中,样本中所含的信息可能有所损失,若在将样本加工为统计量时,信息毫无损失,则称此统计量为充分统计量。比如,在正态分布中, 我们可以用两个充分统计量统计量样本均值和样本原创 2014-06-19 09:17:34 · 2037 阅读 · 0 评论 -
LDA的使用
http://blog.sina.com.cn/s/blog_612fe39a0101lmdd.html转载 2014-08-20 13:45:52 · 489 阅读 · 0 评论 -
股票
http://walsece.iteye.com/blog/169514#http://www.baidu.com/s?tn=94090553_hao_pg&f=8&wd=%E8%82%A1%E7%A5%A8%E6%8E%A5%E5%8F%A3&ie=utf-8&bs=%E6%8E%A5%E5%8F%A3http://blog.sina.com.cn/s/blog_7ed3ed3d01转载 2014-08-26 15:55:24 · 416 阅读 · 0 评论 -
Adaboost 算法的原理与推导
0 引言 一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午,邹博在我组织的机器学习班第8次课上讲决策树与Adaboost,其中,Adaboost讲得酣畅淋漓,讲完后,我知道,可以写本篇博客了。 无心啰嗦,本文结合邹博之决策树与Adaboost 的PPT,跟他讲Ad转载 2015-07-23 09:16:35 · 483 阅读 · 0 评论 -
KNN与Kmeans
问题导读1、什么是K-Means?2、KNN和K-Means的区别有哪些?3、K-Means有哪些缺陷?K-Means介绍K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程可以用下图表示: 如图所示,数据样本用转载 2015-07-15 17:31:31 · 745 阅读 · 0 评论 -
机器学习的数学基础(1)--Dirichlet分布
http://blog.csdn.net/jwh_bupt/article/details/8841644这一系列(机器学习的数学基础)主要包括目前学习过程中回过头复习的基础数学知识的总结。基础知识:conjugate priors共轭先验 共轭先验是指这样一种概率密度:它使得后验概率的密度函数与先验概率的密度函数具有相同的函数形式。它极大地简化了贝叶斯分析。转载 2015-07-15 19:51:57 · 610 阅读 · 0 评论 -
FuzzyKmeans的Mahout实现
不得不说,google更靠谱,比google更更靠谱的是官网!!!so要好好利用google and official website!!!https://mahout.apache.org/users/clustering/fuzzy-k-means.htmlFuzzy K-MeansFuzzy K-Means (also called Fuzzy C-M转载 2015-07-14 16:57:20 · 1186 阅读 · 0 评论 -
机器学习中的相似性度量
http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性转载 2015-07-13 21:54:39 · 381 阅读 · 0 评论 -
mahout中kmeans算法和Canopy算法实现原理
http://www.cnblogs.com/yuhan-TB/p/3380153.html本文讲一下mahout中kmeans算法和Canopy算法实现原理。 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉。虽然算法较为简单,在实际应用中却可以有不错的效果;其算法原理也决定了其比较容易实现并行化。学习mahout就先从简单的kmeans算法开始学转载 2015-07-13 21:58:15 · 670 阅读 · 0 评论 -
凸优化问题
1、凸集凸集,数学术语,若对于所有x,y in S和所有t in [0,1],有(1-t)*x + t*y in S,则称S为凸集实数 R (或复数 C 上)向量空间中,集合 S 称为凸集,如果 S 中任两点的连线内的点都在集合 S 内。对欧氏空间,直观上,凸集就是凸的。在一维空间中,凸集是单点或一条不间断的线(包括直线、射线、线段);二、三维空间中的凸集就是直观上凸的图形。原创 2015-06-09 14:41:46 · 1137 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
http://blog.csdn.net/xianlingmao/article/details/7919597在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有转载 2015-05-17 10:45:16 · 461 阅读 · 0 评论 -
分布式数据分析挖掘系统
1. 数据分析挖掘在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。而信息时代的机器学习应用场景,如每天处理数以千计的个人电子邮件信息,从海量博客中推测用户的意图等,的输入数据通常都非常庞大,以至于无法在一台计算机上完全处理,即使这台计算机非常强大,如果没有快速并行处理的实现手段,这将是一项无法完成的任务,因此分布式数据分析挖掘系统逐渐成为了主流方向。目前的原创 2015-05-11 20:53:56 · 2102 阅读 · 0 评论 -
Myrrix
一、http://www.open-open.com/lib/view/open1372168198150.htmlMyrrix是一个完整的、实时的、可扩展的集群和推荐系统,基于Mahout实现。主要架构分为两部分:服务层:在线服务,响应请求、数据读入、提供实时推荐;计算层:用于分布式离线计算,在后台使用分布式机器学习算法为服务层 更新机器学习模型。Myrrix使用这两个层转载 2015-05-08 19:49:22 · 1428 阅读 · 0 评论 -
online learning
原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样转载 2014-11-23 15:39:01 · 1116 阅读 · 0 评论 -
PCA
http://www.docin.com/p-475630752.html学的数学终于有用武之地了T转载 2014-07-07 15:56:44 · 341 阅读 · 0 评论 -
数学之美系列一 -- 统计语言模型
http://www.cnblogs.com/KevinYang/archive/2009/02/01/1381783.html2006年4月3日 上午 08:15:00发表者: 吴军, Google 研究员 前言 也 许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应转载 2014-06-17 10:23:42 · 797 阅读 · 0 评论 -
规范化
数据预处理的主要任务如下:(1)数据清理:填写空缺值,平滑噪声数据,识别,删除孤立点,解决不一致性(2)数据集成:集成多个数据库,数据立方体,文件(3)数据变换:规范化(消除冗余属性)和聚集(数据汇总),将数据从一个较大的子空间投影到一个较小的子空间(4)数据归约:得到数据集的压缩表示,量小,但可以得到相近或相同的结果(5)数据离散化:数据规约的一部分,通过转载 2014-04-05 17:39:40 · 1244 阅读 · 0 评论 -
数据预处理 归一化
归一化的三种fangfa1、线性函数转换,表达式如下:y=(x-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。2、对数函数转换,表达式如下:y=log10(x)说明:以10为底的对数函数转换。3、反余切函数转换,表达式如下:y=atan(x)*2/PI原创 2014-04-05 16:51:25 · 755 阅读 · 0 评论 -
question
1、降维和特征选择的关系?2、过去1天,2天,3天,。。5天的转移概率矩阵;3、过去第1天,第2天。。。第5天的转移概率矩阵;4、CRF与HMM的关系和区别,隐状态,观察状态和特征向量都是神马?5、CRF是不是已经把总体的概率转移矩阵给做好了??6、如果没什么特殊之处,为什么要用CRF呢??7、CRF分类器是树形分类器??怎么处理状态的?8、数据预处理:归一化?!!原创 2014-04-02 19:39:02 · 445 阅读 · 0 评论 -
CRF++
http://crfpp.googlecode.com/svn/trunk/doc/index.html#downloadCRF++:::转载 2014-04-16 10:15:13 · 490 阅读 · 0 评论 -
数据挖掘十大经典算法_C4.5
机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是数据挖掘中一个普通的方法转载 2014-03-18 15:03:45 · 508 阅读 · 0 评论 -
分类器
weka中的J48算法就是经典的C4.5算法,soga~~C4.5决策树算法是机器学习中广为人知的算法,是ID3算法的改进,并继承了ID3的全部优点。数据挖掘中算法的性能比较一般从分类速度、准确率、可伸缩性、强壮型以及可理解性等几个方面进行比较。强壮型一般指容忍噪音数据和缺失数据的能力;可伸缩性一般随着数据规模的扩大,算法处理的效率;可理解性是指学习出来的模型是否容易理解。原创 2014-03-18 14:27:01 · 595 阅读 · 0 评论 -
crf++ 之运行过后没生成model文件的问题
什么都完全一样,就是没有就是没有就是没有结果,神奇!!电脑你傻了么原创 2014-02-24 15:38:48 · 1693 阅读 · 0 评论 -
特征选择
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其转载 2014-03-10 10:53:15 · 1010 阅读 · 0 评论 -
CRF++使用小结
1. 简述 最近要应用CRF模型,进行序列识别。选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信息。 参考资料是CRF++的官方网站:CRF++: Yet Another CRF toolkit,网上的很多关于CRF++的博文就是这篇文章的全部或者部分的翻译,本文也翻译了一些转载 2013-12-09 18:49:01 · 1598 阅读 · 0 评论 -
EKF
状态估计算法:根据可获取的量测数据估算动态系统内部状态的方法。对系统的输入和输出进行量测而得到的数据只能反映系统的外部特性,而系统的动态规律需要用内部(通常无法直接测量)状态变量来描述。因此状态估计对于了解和控制一个系统具有重要意义。正交算法:一种状态估计算法原创 2013-11-06 21:57:02 · 780 阅读 · 0 评论 -
波多尔地区pm10浓度的预测
为了预测波多尔地区每日pm10的平均浓度,设计出了一个基于空间的自适应性非线性状态建模系统。这个非线性模型结构是基于测量出的pm10与其他依次污染物和气象变量的经验关系设计而出的。一个扩展卡尔曼滤波算法用来估计提前一天的pm10浓度,扩展状态还包括模型参数和每日pm10平均浓度。这个系统的重要特征就是它的行为方式可以适应空气污染的短期变化,因此它可以处理随时间演变的现象,不需要经常的调原创 2013-11-05 21:26:16 · 2140 阅读 · 0 评论 -
ARMA
http://wiki.mbalib.com/wiki/ARMA%E6%A8%A1%E5%9E%8B转载 2014-06-23 16:35:15 · 2387 阅读 · 0 评论 -
CRF的优势
我们将介绍条件随机场,一个构建分词和序列标注的概率模型。条件随机场与隐马尔科夫模型和随机文法相比,在独立假设方面有自己的优势。条件随机场与最大熵马尔科夫模型(MEMM)和其它马尔科夫判别式模型相比避免了一些有向图方面的基本限制,就是偏向于那些比较少的后续状态的状态点。我们提出用迭代的办法进行参数估计,并且在合成语言和自然语言处理性能方面与HMM和MEMM做了比较。 1. 介绍转载 2014-06-07 13:04:06 · 5409 阅读 · 0 评论