Machine L/ Data Mining
文章平均质量分 79
Liu_Fengming
这个作者很懒,什么都没留下…
展开
-
数据挖掘入门必看10个问题
NO.1 Data Mining 和统计分析有什么不同?硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mini转载 2013-11-12 15:17:40 · 917 阅读 · 0 评论 -
正则表达式
目录跳过目录本文目标如何使用本教程正则表达式到底是什么东西?入门测试正则表达式元字符字符转义重复字符类分枝条件反义分组后向引用零宽断言负向零宽断言注释贪婪与懒惰处理选项平衡组/递归匹配还有些什么东西没提到联系作者网上的资源及本文参考文献更新纪录本文目标30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。如何使用本教转载 2013-11-29 18:44:00 · 557 阅读 · 0 评论 -
马尔科夫随机场和马尔科夫链
1.什么是随机过程?在当代科学与社会的广阔天地里,人们都可以看到一种叫作随机过程的数学模型:从银河亮度的起伏到星系空间的物质分布、从分子的布朗运动到原子的蜕变过程,从化学反应动力学到电话通讯理论、从谣言的传播到传染病的流行、从市场预测到密码破译,随机过程理论及其应用几乎无所不在。人类历史上第一个从理论上提出并加以研究的过程模型是马尔科夫链,它是马尔科夫对概率论乃至人类思想发展作出的又一伟大转载 2013-11-29 15:51:08 · 1310 阅读 · 0 评论 -
概率,先验概率,后验概率
今天看了 Larry Wasserman写的 All of Statistics中的第一章,第一章主要讲概率,其中最主要的就是贝叶斯公式。要了解贝叶斯公式,就得知道全概率公式:通俗的讲,先验概率就是事情尚未发生前,我们对该事发生概率的估计,例如全概率公式中P(B)就是先验概率,求解方法有很多种,全概率公式是一种,也可以根据经验等,例如抛一枚硬币头向上的概率为0.5。后验概率转载 2013-11-28 14:08:37 · 1646 阅读 · 0 评论 -
先验概率&后验概率
先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率. 先验概率的分类利用过去历史资料计算得到的先验概率,称为客观先验概率;当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。 先验概率的条件先验概率是通过古典概率模型加以定义的,故又称为古典概率。古典概率模型要求原创 2013-11-28 12:53:23 · 1046 阅读 · 0 评论 -
监督学习&非监督学习
监督式学习(英语:Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。 一个监督式学习者的任务在观察完一些训练范例(输入和原创 2013-11-25 13:50:35 · 981 阅读 · 0 评论 -
C4.5算法
第一部分、决策树学习1.1、什么是决策树 咱们直接切入正题。所谓决策树,顾名思义,是一种树,一种依托于策略抉择而建立起来的树。 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲转载 2013-11-08 13:59:21 · 1774 阅读 · 0 评论 -
C4.5算法概要
C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类转载 2013-11-11 09:56:37 · 1109 阅读 · 0 评论 -
数学之美-平凡而又神奇的贝叶斯方法(刘未鹏)
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯目录0. 前言 1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian转载 2013-11-08 14:09:12 · 1497 阅读 · 0 评论 -
熵(信息论中)
1.在信息论中,熵表示的是不确定性的量度。用来消除不确定性的东西,对难以准确计算的信息进行准确的描述。2.随机变量,都有数学期望,但是不一定存在。3.计算熵的计算如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若原创 2014-01-15 19:08:44 · 2052 阅读 · 0 评论