数据挖掘
文章平均质量分 87
流水无Qing
CS计算机硕士一枚,主攻方向为机器学习和数据挖掘,还有移动互联网开发,最感兴趣的是大数据hadoop研究,同时兼顾开发各种java B/S项目,android移动客户端项目,偶尔还设计到图像方面了,当然了,还有一些nodejs,matlab,python,js等各个方面的涉入,同时也希望和大家一起交流、共同进步。
展开
-
数据挖掘开源软件:WEKA基础操作
数据挖掘开源软件:WEKA基础教程本文档部分来自于网络,随着自己的深入学习,讲不断的修订和完善。第一节 Weka简介:Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis) 。在怀卡托大学以外的地方,Weka通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟, 非常害羞,好奇心原创 2014-03-09 15:19:30 · 6095 阅读 · 0 评论 -
支持向量机(SVM)(二)-- 拉格朗日对偶(Lagrange duality)
简介:1、在之前我们把要寻找最优的分割超平面的问题转化为带有一系列不等式约束的优化问题。这个最优化问题被称作原问题。我们不会直接解它,而是把它转化为对偶问题进行解决。2、为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,即拉格朗日函数,再通过这个函数来寻找最优点。即拉格朗日函数,再通过这个函数原创 2014-05-07 16:31:07 · 15250 阅读 · 0 评论 -
支持向量机(SVM)(三)-- 最优间隔分类器(optimal margin classifier)
在之前为了寻找最有分类器,我们提出了如下优化问题:在这里我们可以把约束条件改写成如下:首先我们看下面的图示:很显然我们可以看出实线是最大间隔超平面,假设×号的是正例,圆圈的是负例。在虚线上的点和在实线上面的两个一共这三个点称作支持向量。现在我们结合KKT条件分析下这个图。我们从式子和式子可以看出如果那么,这个也就说明时,w处于可行域的边界上,这时才是起作用的约束原创 2014-05-08 18:00:04 · 3390 阅读 · 0 评论 -
数据挖掘十大经典算法(详解)
数据挖掘十大经典算法原创 2014-04-23 16:51:25 · 39724 阅读 · 6 评论 -
数据挖掘十大算法--K-均值聚类算法
一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。 设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为: ,原创 2014-04-24 12:16:06 · 8904 阅读 · 6 评论 -
支持向量机(四)-- 核函数
一、核函数的引入问题1:SVM显然是线性分类器,但数据如果根本就线性不可分怎么办?解决方案1:数据在原始空间(称为输入空间)线性不可分,但是映射到高维空间(称为特征空间)后很可能就线性可分了。问题2:映射到高维空间同时带来一个问题:在高维空间上求解一个带约束的优化问题显然比在低维空间上计算量要大得多,这就是所谓的“维数灾难”。解决方案2:于是就引入了“核原创 2014-05-10 20:58:45 · 5799 阅读 · 1 评论 -
支持向量机(SVM)(五)-- SMO算法详解
一、我们先回顾下SVM问题。A、线性可分问题1、SVM基本原理:SVM使用一种非线性映射,把原训练 数据映射到较高的维。在新的维上,搜索最佳分离超平面,两个类的数据总可以被超平面分开。2、问题的提出:3、如何选取最优的划分直线f(x)呢?4、求解:凸二次规划建立拉格朗日函数:求偏导数:原创 2014-05-21 20:41:43 · 13826 阅读 · 2 评论 -
数据挖掘十大算法----EM算法(最大期望算法)
概念在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。可以有一些比较形象的比喻说法把这个算法讲清楚。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,原创 2014-04-14 20:48:44 · 23912 阅读 · 3 评论 -
机器学习与数据挖掘-logistic回归及手写识别实例的实现
本文主要介绍logistic回归相关知识点和一个手写识别的例子实现一、logistic回归介绍:logistic回归算法很简单,这里简单介绍一下:1、和线性回归做一个简单的对比下图就是一个简单的线性回归实例,简单一点就是一个线性方程表示(就是用来描述自变量和因变量已经偏差的方程)2、logistic回归可以看到下图,很难找到一条线性方程能将他们很好的分开原创 2015-05-10 21:55:15 · 5253 阅读 · 1 评论 -
机器学习与数据挖掘-K最近邻(KNN)算法的实现(java和python版)
KNN算法基础思想前面文章可以参考,这里主要讲解java和python的两种简单实现,也主要是理解简单的思想。http://blog.csdn.net/u011067360/article/details/23941577python版本:这里实现一个手写识别算法,这里只简单识别0~9熟悉,在上篇文章中也展示了手写识别的应用,可以参考:机器学习与数据挖掘-logistic回归及手写原创 2015-05-23 21:42:28 · 9717 阅读 · 5 评论 -
数据挖掘十大算法--K近邻算法
k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。一、基于实例的学习。1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学习器遇到一个新的查询实例,它分析这个新实例与以前存储的实例的关系,并据此把一个目标函数值赋给新实例。2原创 2014-04-17 17:33:01 · 21839 阅读 · 5 评论 -
朴素贝叶斯分类器
贝叶斯定理贝叶斯定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:。 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直原创 2014-04-03 19:26:27 · 5356 阅读 · 0 评论 -
贝叶斯学习--极大后验概率假设和极大似然假设
在机器学习中,通常我们感兴趣的是在给定训练数据D时,确定假设空间H中的最佳假设。所谓最佳假设,一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能(most probable)假设。贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设下观察到不同数据的概率、以及观察的数据本身。要原创 2014-04-03 16:43:41 · 6426 阅读 · 0 评论 -
数据挖掘学习笔记之人工神经网络(二)
多层网络和反向传播算法我们知道单个感知器仅能表示线性决策面。然而我们可以将许多的类似感知器的模型按照层次结构连接起来,这样就能表现出非线性决策的边界了,这也叫做多层感知器,重要的是怎么样学习多层感知器,这个问题有两个方面:1、 要学习网络结构;2、 要学习连接权值对于一个给定的网络有一个相当简单的算法来决定权值,这个算法叫做反向传播算法。反向传播算法所学习的多层网络能够原创 2014-03-27 21:04:51 · 4611 阅读 · 0 评论 -
机器学习中的有监督学习,无监督学习,半监督学习
在机器学习(Machine learning)领域,主要有三类不同的学习方法:监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning),监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。非监督学习:直接原创 2014-04-29 19:57:08 · 60149 阅读 · 4 评论 -
数据挖掘十大算法--Apriori算法
一、Apriori 算法概述Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的 算法,它是由Rakesh Agrawal 和RamakrishnanSkrikant 提出的。它使用一种称作逐层搜索的迭代方法,k- 项集用于探索(k+1)- 项集。首先,找出频繁 1- 项集的集合。该集合记作L1。L1 用于找频繁2- 项集的集合 L2,而L2 用于找L2,如此下去,直到不能找到原创 2014-04-30 20:32:27 · 28077 阅读 · 2 评论 -
机器学习与数据挖掘-支持向量机(SVM)(一)
最近在看斯坦福大学的机器学习的公开课,原创 2014-05-02 21:32:49 · 9288 阅读 · 0 评论 -
数据挖掘十大经典算法--CART: 分类与回归树
一、决策树的类型 在数据挖掘中,决策树主要有两种类型:分类树 的输出是样本的类标。回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出.分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。分类回归树(CART,Classification And Regressi原创 2014-05-02 13:15:16 · 69864 阅读 · 7 评论 -
K近邻算法基础:KD树的操作
Kd-树概念Kd-树 其实是K-dimension tree的缩写,是对数据点在k维空间中划分的一种数据结构。其实,Kd-树是一种平衡二叉树。举一示例:假设有六个二维数据点 = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},数据点位于二维空间中。为了能有效的找到最近邻,Kd-树采用分而治之的思想,即将整个空间划分为几个小部分。六个二维数据点生成的Kd-树的原创 2014-04-17 15:47:03 · 6093 阅读 · 2 评论 -
人工神经网络关键核心知识点
神经网络里面主要就是单层神经网络学习和多层神经网络学习,涉及到知识点主要就是感知器,线性分割,影藏层,权重校正,误差的平方和等知识点。感知器:是神经网络最简单的形式,单层双输入感知器的结构如下:感知器的作用是将输入分类,超平面有线性分割函数定义:下图是感知器的线性分割:两输入感知器和三输入感知器的情形。感知器如何学习分类任务感知器通过细微的调节权值来减少原创 2014-04-02 17:06:35 · 3542 阅读 · 0 评论 -
数据挖掘学习笔记--决策树C4.5
在网上和教材上也看了有很多数据挖掘方面的很多知识,自己也学习很多,就准备把自己学习和别人分享的结合去总结下,以备以后自己回头看,看别人总还是比不上自己写点,及时有些不懂或者是没有必要。定义:分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出原创 2014-03-23 11:56:20 · 6210 阅读 · 0 评论 -
贝叶斯学习--极大后验假设学习
我们假定学习器考虑的是定义在实例空间X上的有限的假设空间H,任务是学习某个目标概念c:X→{0,1}。如通常那样,假定给予学习器某训练样例序列〈〈x1,d1,〉…〈xm,dm〉〉,其中xi为X中的某实例,di为xi的目标函数值(即di=c(xi))。为简化讨论,假定实例序列〈x1…xm〉是固定不变的,因此训练数据D可被简单地写作目标函数值序列:D=〈d1…dm〉。基于贝叶斯理论我们可以设计原创 2014-04-03 17:13:18 · 3652 阅读 · 0 评论 -
贝叶斯学习举例--学习分类文本
“我感兴趣的电子新闻稿”或“讨论机器学习的万维网页”。在这两种情况下,如果计算机可以精确地学习到目标概念,就可从大量在线文本文档中自动过滤出最相关的文档显示给读者。这里描述了一个基于朴素贝叶斯分类器的文本分类的通用算法。将要展示的朴素贝叶斯算法遵循以下的问题背景:1、考虑实例空间X包含了所有的文本文档(即任意长度的所有可能的单词和标点符号串)。2、给定某未知目标函数f(x)原创 2014-04-03 20:19:10 · 2106 阅读 · 0 评论 -
数据挖掘学习笔记之人工神经网络(一)
由于本人这段时间在学习数据挖掘的知识,学习了人工神经网络刚好就把学习的一些笔记弄出来,也为以后自己回头看的时候方便些。神经网络学习方法对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法。对于某些类型的问题,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的最有效学习方法。人工神经网络的研究在一定程度上受到了生物学的启发,因为生物的学习系统是由相互连接的神经元(ne原创 2014-03-27 19:14:56 · 7988 阅读 · 0 评论