机器学习与数据挖掘系列
文章平均质量分 87
本专栏是较为全面地介绍了机器学习的基本概念,并讨论了数据挖掘和知识发现中的有关问题及多策略学习方法,并且提供了一个公开的数据挖掘工作平台Weka的操作实现;同时收集众多不同领域中数据挖掘的实际案例,以此来说明数据挖掘的具体解决方法,以期为广大读者提供一个更为广阔的数据挖掘的平台。
流水无Qing
CS计算机硕士一枚,主攻方向为机器学习和数据挖掘,还有移动互联网开发,最感兴趣的是大数据hadoop研究,同时兼顾开发各种java B/S项目,android移动客户端项目,偶尔还设计到图像方面了,当然了,还有一些nodejs,matlab,python,js等各个方面的涉入,同时也希望和大家一起交流、共同进步。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘十大算法--Apriori算法
一、Apriori 算法概述Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的 算法,它是由Rakesh Agrawal 和RamakrishnanSkrikant 提出的。它使用一种称作逐层搜索的迭代方法,k- 项集用于探索(k+1)- 项集。首先,找出频繁 1- 项集的集合。该集合记作L1。L1 用于找频繁2- 项集的集合 L2,而L2 用于找L2,如此下去,直到不能找到原创 2014-04-30 20:32:27 · 28722 阅读 · 2 评论 -
机器学习中的有监督学习,无监督学习,半监督学习
在机器学习(Machine learning)领域,主要有三类不同的学习方法:监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning),监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。非监督学习:直接原创 2014-04-29 19:57:08 · 61024 阅读 · 4 评论 -
数据挖掘十大算法--K-均值聚类算法
一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。 设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为: ,原创 2014-04-24 12:16:06 · 9266 阅读 · 6 评论 -
数据挖掘十大经典算法(详解)
数据挖掘十大经典算法原创 2014-04-23 16:51:25 · 40634 阅读 · 6 评论 -
数据挖掘十大算法--K近邻算法
k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。一、基于实例的学习。1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学习器遇到一个新的查询实例,它分析这个新实例与以前存储的实例的关系,并据此把一个目标函数值赋给新实例。2原创 2014-04-17 17:33:01 · 22049 阅读 · 5 评论 -
K近邻算法基础:KD树的操作
Kd-树概念Kd-树 其实是K-dimension tree的缩写,是对数据点在k维空间中划分的一种数据结构。其实,Kd-树是一种平衡二叉树。举一示例:假设有六个二维数据点 = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},数据点位于二维空间中。为了能有效的找到最近邻,Kd-树采用分而治之的思想,即将整个空间划分为几个小部分。六个二维数据点生成的Kd-树的原创 2014-04-17 15:47:03 · 6334 阅读 · 2 评论 -
数据挖掘十大算法----EM算法(最大期望算法)
概念在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。可以有一些比较形象的比喻说法把这个算法讲清楚。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,原创 2014-04-14 20:48:44 · 24169 阅读 · 3 评论 -
贝叶斯学习举例--学习分类文本
“我感兴趣的电子新闻稿”或“讨论机器学习的万维网页”。在这两种情况下,如果计算机可以精确地学习到目标概念,就可从大量在线文本文档中自动过滤出最相关的文档显示给读者。这里描述了一个基于朴素贝叶斯分类器的文本分类的通用算法。将要展示的朴素贝叶斯算法遵循以下的问题背景:1、考虑实例空间X包含了所有的文本文档(即任意长度的所有可能的单词和标点符号串)。2、给定某未知目标函数f(x)原创 2014-04-03 20:19:10 · 2184 阅读 · 0 评论 -
朴素贝叶斯分类器
贝叶斯定理贝叶斯定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:。 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直原创 2014-04-03 19:26:27 · 5708 阅读 · 0 评论 -
贝叶斯学习--极大后验假设学习
我们假定学习器考虑的是定义在实例空间X上的有限的假设空间H,任务是学习某个目标概念c:X→{0,1}。如通常那样,假定给予学习器某训练样例序列〈〈x1,d1,〉…〈xm,dm〉〉,其中xi为X中的某实例,di为xi的目标函数值(即di=c(xi))。为简化讨论,假定实例序列〈x1…xm〉是固定不变的,因此训练数据D可被简单地写作目标函数值序列:D=〈d1…dm〉。基于贝叶斯理论我们可以设计原创 2014-04-03 17:13:18 · 3851 阅读 · 0 评论 -
贝叶斯学习--极大后验概率假设和极大似然假设
在机器学习中,通常我们感兴趣的是在给定训练数据D时,确定假设空间H中的最佳假设。所谓最佳假设,一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能(most probable)假设。贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设下观察到不同数据的概率、以及观察的数据本身。要原创 2014-04-03 16:43:41 · 7229 阅读 · 0 评论 -
人工神经网络关键核心知识点
神经网络里面主要就是单层神经网络学习和多层神经网络学习,涉及到知识点主要就是感知器,线性分割,影藏层,权重校正,误差的平方和等知识点。感知器:是神经网络最简单的形式,单层双输入感知器的结构如下:感知器的作用是将输入分类,超平面有线性分割函数定义:下图是感知器的线性分割:两输入感知器和三输入感知器的情形。感知器如何学习分类任务感知器通过细微的调节权值来减少原创 2014-04-02 17:06:35 · 3702 阅读 · 0 评论 -
数据挖掘学习笔记之人工神经网络(二)
多层网络和反向传播算法我们知道单个感知器仅能表示线性决策面。然而我们可以将许多的类似感知器的模型按照层次结构连接起来,这样就能表现出非线性决策的边界了,这也叫做多层感知器,重要的是怎么样学习多层感知器,这个问题有两个方面:1、 要学习网络结构;2、 要学习连接权值对于一个给定的网络有一个相当简单的算法来决定权值,这个算法叫做反向传播算法。反向传播算法所学习的多层网络能够原创 2014-03-27 21:04:51 · 4745 阅读 · 0 评论 -
数据挖掘学习笔记之人工神经网络(一)
由于本人这段时间在学习数据挖掘的知识,学习了人工神经网络刚好就把学习的一些笔记弄出来,也为以后自己回头看的时候方便些。神经网络学习方法对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法。对于某些类型的问题,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的最有效学习方法。人工神经网络的研究在一定程度上受到了生物学的启发,因为生物的学习系统是由相互连接的神经元(ne原创 2014-03-27 19:14:56 · 8133 阅读 · 0 评论 -
数据挖掘学习笔记--决策树C4.5
在网上和教材上也看了有很多数据挖掘方面的很多知识,自己也学习很多,就准备把自己学习和别人分享的结合去总结下,以备以后自己回头看,看别人总还是比不上自己写点,及时有些不懂或者是没有必要。定义:分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出原创 2014-03-23 11:56:20 · 6394 阅读 · 0 评论
分享