所以,什么是大数据

原文链接:http://www.kdnuggets.com/2017/02/what-is-big-data.html当我第一次听见“大数据”的时候,我并没有思考太多。不久之后,“大数据”开始不断的出现在我和我的IT朋友的聊天之中。所以我开始问自己“什么是大数据”?我不断的为我自己的朋友们这个问题...

2017-02-20 16:31:59

阅读数 598

评论数 0

在过去的12个月(2016)里,你用到的最多的算法或方法是什么?

原文链接:http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html这个调查问卷一共有844个投票,排名前10的算法如下图所示: 在最后作者又给出了2011年和2016年投票结果的对比。 ...

2017-02-20 15:20:27

阅读数 908

评论数 0

数据科学近3年都应用在哪些领域?

在KDnuggets Poll中Gregory Piatetsky做了一个关于数据科学应用领域的调查。调查的具体内容是让读者悬着数据分析、数据挖掘、数据科学在2016年都应用在哪些领域。(KDnuggets Poll asked readers to select Industries / Fie...

2017-02-20 11:14:18

阅读数 3408

评论数 0

R语言分类算法之集成学习(Bootstrap Aggregating)

1.集成学习(Bootstrap Aggregating)原理分析: Bagging是Bootstrap Aggregating的缩写,简单来说,就是通过使用boostrap抽样得到若干不同的训练集,以这些训练集分别建立模型,即得到一系列的基分类器,这些分类器由于来自不同的训练样本,他们对同一测...

2017-02-16 10:56:11

阅读数 4429

评论数 0

R语言分类算法之随机森林(Random Forest)

1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,新数据的分类结果按照决策树投票多少形成的分数而定. 通俗的理解为由许多棵决策树组成的森...

2017-02-16 10:32:29

阅读数 4678

评论数 0

R语言聚类算法之期望最大化聚类(Expectation Maximization Algorithm)

1.原理解析: 它将数据集看作一个含有隐性变量的概率模型,并以实现模型最优化,即获取与数据本身性质最契合的聚类方式为目的,通过”反复估计”模型参数找到最优解,同时给出相应的最优类别k.而”反复估计”的过程即是EM算法的精华所在,这一过程由E-step(Expectation)和M-step(M...

2017-02-16 10:12:24

阅读数 1690

评论数 0

R语言聚类算法之密度聚类(Density-based Methods)

1.原理解析: 1.从数据集中选择一个未处理的样本点 2.以1为圆心,做半径为E的圆,由于圆内圈入点的个数为3,满足密度阈值Minpts,因此称点1为核心对象(黑色实心圆点),且将圈内的4个点形成一个簇,其中点1直接密度可达周围的3个灰色实心原点; 3.重复步骤2若干次,其中点1直接密度可达...

2017-02-16 09:58:22

阅读数 3980

评论数 0

R语言聚类算法之系谱聚类(Hierarchical Method)

1.原理解析: 不需要先设定类别数K,这是因为它每次迭代过程仅将距离最近的两个样本/簇聚为一类,其运作过程将自然得到k=1至k=n个类别的聚类结果。 2.在R语言中的应用 系谱聚类(Hierarchical Method)主要运用到了stats包(R语言内置包)中的hclust();cu...

2017-02-16 09:44:19

阅读数 2088

评论数 0

R语言聚类算法之k中心聚类(K-medoids)

1.原理解析: 针对K-均值算法易受极值影响这一缺点的改进算法.在原理上的差异在于选择个类别中心点时不取样本均值点,而在类别内选取到其余样本距离之和最小的样本为中心。 2.在R语言中的应用 k中心聚类(K-medoids)主要运用到了R语言中cluster包(R语言内置包)中的pam...

2017-02-16 09:34:08

阅读数 4890

评论数 0

R语言聚类算法之k均值聚类(K-means)

1.线性判别原理解析: 随机选取k(预设类别数)个样本作为起始中心点,将其余样本归入相似度最高中心点所在簇(cluster),再确立当前簇中样本坐标的均值为新的中心点,一次循环迭代下去,直至所有样本所属类别不再变动. 2.在R语言中的应用 在k均值聚类中我们应用到了stats包(...

2017-02-16 09:21:13

阅读数 5092

评论数 0

R语言高级算法之人工神经网络(Artificial Neural Network)

1.人工神经网络原理分析: 神经网络是一种运算模型,由大量的节点(或称神经元)和之间的相互连接构成,每个节点代表一种特定的输出函数,称为激励函数(activation function).每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆.网络的输出则...

2017-02-15 14:32:23

阅读数 2650

评论数 0

R语言高级算法之支持向量机(Support Vector Machine)

1.支持向量机原理解析 机器学习本质上就是一种对所研究问题真实模型的逼近,通常会假设一个近似模型,然后根据适当的原理将这个近似模型不断逼近真实模型.结构风险就是指近似模型与真实模型之间的差距. 我们可以用某些方法来逼近真实模型,最直观的想法就是使用分类器在样本数据上的分类结果与真实结果之间的差...

2017-02-15 13:41:41

阅读数 2660

评论数 0

R语言分类算法之距离判别(Distance Discrimination)

1.距离判别原理分析 根据待判定样本与已知类别样本之间的距离远近做出判断.根据已知类别样本信息建立距离判别函数式,再将各待判定样本的属性数据逐一代入式中计算,得到距离值,再根据此将样本判入距离值最小的类别的样本簇. K最近邻算法则是距离判别法中使用最为广泛的,他的思路是如果 一个样本在...

2017-02-15 11:17:06

阅读数 5726

评论数 5

R语言分类算法之朴素贝叶斯分类(Naive Bayesian Classification)

1.朴素贝叶斯分类原理解析 根据已知的先验概率P(A|B),利用贝叶斯公式P(B|A)=P(A|B)P(B)/P(A)求出后验概率P(B|A),即该样本属于某一类的概率,然后选择具有最大后验概率的类作为该样本所属的类. 也就是说,对于给出的待分类样本,求出在此样本出现条件下各个类别出现的概率,...

2017-02-15 09:46:49

阅读数 3778

评论数 0

R语言分类算法之线性判别分析(Linear Discriminant Analysis)

1.费希尔(Fisher)判别原理解析 基本思想是”投影”,即高纬度空间的点向低纬度空间投影,从而简化问题的处理.在原坐标系下,空间中的点可能很难被分开,如图8-1,当类别Ⅰ和类别Ⅱ中的样本点都投影至图中的”原坐标轴”后,出现了部分样本点的”影子”重合的情况,这样就无法将分属于这两个类别...

2017-02-14 14:59:27

阅读数 11392

评论数 3

R语言实现分层抽样(Stratified Sampling)以iris数据集为例

1.观察数据集head(iris) 选取数据集中前6个数据,我们可以看出iris数据集一共有5个字段。dim(iris) iris数据集一共有150条数据,5个字段summary(iris) 观察各个变量的内容,可以看出前四个变量(Sepal.Length Sepal.Width Peta...

2017-02-14 11:28:43

阅读数 10148

评论数 2

数据分析的一般过程

1.数据预处理 主要包括了重复值处理、缺省值处理、抽样处理、训练集和测试集处理。 2.应用模型 根据要求选择相应的数学模型进行分析。这里主要包括了分类算法,聚类算法,关联分析,回归分析4大类型的模型应用。 3.观察处理结果 在套用相应的数学模型之后会产生相应的处理结果,比如在回归分析中会...

2017-02-13 10:07:22

阅读数 351

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭