机器学习
文章平均质量分 82
oucpowerman
这个作者很懒,什么都没留下…
展开
-
机器学习常见算法分类
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一转载 2015-11-20 09:46:00 · 1145 阅读 · 0 评论 -
监督学习 - 一个典型的工作流程
现今,当在“数据科学”领域开始引入各种概念的时候,著名的“鸢尾花(Iris)”花数据集可能是最常用的一个例子。1936年,R.A.Fisher在他的判别分析中创建和使用了Iris数据集。Iris现在可以从UCI机器学习库中免费得到。在一个监督分类任务中,它将会是一个很好的例子。Iris中的花被分为了三类:Setosa , Virginica , 和Versicolor .而这1转载 2015-12-23 22:39:55 · 6103 阅读 · 0 评论 -
决策树分类算法
一、决策树模型决策树是一种对实例进行分类的树形结构,由结点(node)、有向边(directed edge)组成。结点有2种类型:内部结点和叶子节点,其中内部结点表示实例样本的一个特征(feature),叶子节点表示实例的类别(class)。一颗典型的决策树如下图所示: 可以将决策树看成是一个“if-then”规则的集合,决策树的每条路径就是一条规则,路径上的内原创 2015-12-12 18:19:02 · 1429 阅读 · 0 评论 -
从最大似然到EM算法浅解
转自:http://blog.csdn.net/zouxy09/article/details/8537620 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么转载 2016-01-03 23:18:33 · 552 阅读 · 0 评论 -
逻辑回归
一、线性回归 回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。 最简单的回归是线性回归,在此借用Andrew NG的讲义,有如图1.a所示,X为数据原创 2015-12-28 22:46:53 · 696 阅读 · 0 评论 -
K-近邻分类算法KNN
一、KNN算法的步骤计算已知类别数据集中每个点与当前点的距离;选取与当前点距离最小的K个点;统计前K个点中每个类别的样本出现的频率;返回前K个点出现频率最高的类别作为当前点的预测分类。二、计算距离传统上,KNN算法采用的是欧式距离,即:假设item的特征向量为(x1,x2,......,xn),则欧式距离=2个item在特征空间上的直线距离。如果item是文本,它的特征是文原创 2015-11-07 21:38:37 · 3341 阅读 · 0 评论 -
R语言 apply函数家族详解
R语言 apply函数家族详解applyApply Functions Over Array Margins对阵列行或者列使用函数apply(X, MARGIN, FUN, …)lapplyApply a Function over a List or Vector对列表或者向量使用函数lapply(X, FUN, …)转载 2015-11-28 12:45:30 · 1109 阅读 · 0 评论 -
Logistic回归分析时几个需要注意的问题
1、关于样本含量的问题logistic回归分析中,到底样本量多大才算够,这一直是个令许多人困惑的问题。尽管有的人从理论角度提出了logistic回归分析中的样本含量估计,但从使用角度来看多数并不现实。直到现在,这一问题尚无广为接受的答案。根据国外一些大牛的看法,如果样本量小于100,logistic回归的最大似然估计可能有一定的风险,如果大于500则显得比较充足。当然,样本大小还依赖于变量转载 2015-12-28 23:13:05 · 29494 阅读 · 2 评论 -
朴素贝叶斯分类算法
一、贝叶斯定理 已知条件概率P(A|B)的情况下如何求得P(B|A),这就要用到贝叶斯定理了: 二、朴素贝叶斯算法的原理朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么原创 2015-11-28 17:55:58 · 1497 阅读 · 0 评论 -
SparkShell实战
目录(?)[+]1、Spark编程模型1.1 术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Progr转载 2016-07-07 18:41:33 · 642 阅读 · 0 评论