R语言
文章平均质量分 77
Azoobie
这个作者很懒,什么都没留下…
展开
-
线性回归
监督学习问题的目标:给定训练集,通过学习方法得到假设h,使得预测的结果h(x)与实际结果y最相近。若预测变量y为连续变量,该问题为回归问题,若y为离散变量,该问题为分类问题。线性回归的目的在于得到一组权值θ,使得x和y满足线性关系。 (1)给定一组训练集,为了使假设h的效果最好,h(x)的结果与y最为接近,即使代价函数J(θ)的值最小。 (2)1. 最小均方翻译 2015-12-16 20:13:49 · 485 阅读 · 0 评论 -
基于距离的聚类方法--K-means
1. K-means确定k个划分达到平方误差最小优点:算法快速,简单;对大数据集有较高的效率并且可伸缩;时间复杂度接近于线性并且适合挖掘大规模数据集。缺点:k值的选定难以估计,初始类聚类中心点的选取对聚类结果有较大的影响;数据量大时,算法的时间开销大。算法过程:输入:k,data1) 选取k个点作为质心;2) 计算剩余的点到质心的距离并将点归到最近的质心的类;3)原创 2016-08-02 17:21:00 · 31466 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(3)朴素贝叶斯
算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分类特征统计不足,或者分类特征选择有误导致了错误的分类结果,哪怕是训练集也有可能出现不能正确分类的情形。这时,前两种方法都如同现实生活一样是用“少数服算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分转载 2016-07-25 11:16:16 · 1895 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(6)logistic回归
由于我们在前面已经讨论过了神经网络的分类问题(参见《R语言与机器学习学习笔记(分类算法)(5)》),如今再从最优化的角度来讨论logistic回归就显得有些不合适了。Logistic回归问题的最优化问题可以表述为:寻找一个非线性函数sigmoid的最佳拟合参数,求解过程可使用最优化算法完成。它可以看做是用sigmoid函数作为二阈值分类器的感知器问题。今天我们将从统转载 2016-07-25 11:21:17 · 14708 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(2)决策树算法
算法二:决策树算法 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolo算法二:决策树算法 决策树定义 首先,我们来谈谈什么是决策树转载 2016-07-25 10:59:36 · 7539 阅读 · 0 评论 -
距离和相似性度量
1. 计算距离r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2)来计算距离。 x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有:euclidean 欧几里德距离,就是平方再开方。maximum 切比雪夫距离manhattan 曼哈顿距离,绝对值原创 2016-08-01 18:39:04 · 3798 阅读 · 0 评论 -
R学习笔记——wordcloud包制作词云图
一、.wordcloud包的函数介绍 1.wordcloud函数用于制作常规的词云图 wordcloud(words,freq,scale=c(4,.5),min.freq=3,max.words=Inf,random.order=TRUE, random.color=FALSE, rot.per=.1,colors=black,ordered.colors=FALSE,use.r.layout=转载 2016-07-25 11:26:25 · 2144 阅读 · 0 评论 -
R语言与数据挖掘学习笔记(常用的包)
今天发现一个很不错的博客(http://www.RDataMining.com), 博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天 开始,只要晚上能在11点之前把碗洗好,就花一个小时的时间学习博客上的内容,并把学习过程中记不住的信息记录下来,顺便把离英语四级的差距尽量缩小。下面列出了可用于转载 2016-07-25 11:24:19 · 410 阅读 · 0 评论 -
R语言与分类算法的绩效评估
关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。既然要对分类算法进行评价,那么我们自然得有评价依据。到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗?我们不妨考虑这么一个事实:一个样本集合里有95个正例,5个反例,分类器C1利用似然的思想将所有的实转载 2016-07-25 11:22:55 · 2618 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(4)支持向量机
算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。一、SVM的想法 回算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,转载 2016-07-25 11:18:45 · 1125 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(1)K-近邻算法
前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现一下数据挖掘算法。 数据挖掘里我打算整理的内容有:分类,聚类分析,关联分析,异常检测四大部分。其中分类算法主要介绍:K-近邻算法,决策树算法,朴素贝叶斯算法前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现转载 2016-07-25 10:58:27 · 3113 阅读 · 0 评论