机器学习
文章平均质量分 78
Azoobie
这个作者很懒,什么都没留下…
展开
-
线性回归
监督学习问题的目标:给定训练集,通过学习方法得到假设h,使得预测的结果h(x)与实际结果y最相近。若预测变量y为连续变量,该问题为回归问题,若y为离散变量,该问题为分类问题。线性回归的目的在于得到一组权值θ,使得x和y满足线性关系。 (1)给定一组训练集,为了使假设h的效果最好,h(x)的结果与y最为接近,即使代价函数J(θ)的值最小。 (2)1. 最小均方翻译 2015-12-16 20:13:49 · 485 阅读 · 0 评论 -
机器学习实战笔记--kNN
本文为《机器学习实战》学习笔记 1. 相关数据类型&函数介绍SciPy 基于Python生态系统提供了数学运算、科学和工程的开源软件,主要包括基本N维数组包NumPy,科学计算基本库SciPy library, 用于2D绘图的Matplotlib,交互式控制台IPython,用于符号数学Sympy,用于数据结构和分析的pandas。1.1 NumPyNumPy是python科学计算的基础包。包括强原创 2017-05-10 17:03:27 · 716 阅读 · 0 评论 -
正则化
正则化防止过拟合,提高模型的泛化能力。1. 线性回归 常见损失函数 可用最小二乘法求得最优解 但如果协方差矩阵不可逆,目标函数最小化导数为0时有无穷解,无法求得最优解。特别是p > n时,难以求得最优解,也有过拟合问题。 因此需要对w做限制,使得最优解空间变小,即进行正则化。2. L1-范式(Lasso)Lasso的稀疏结果可以用来进行特征选择,选择非零的维度。 稀疏性在提高模原创 2016-11-02 09:56:39 · 2817 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(1)K-近邻算法
前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现一下数据挖掘算法。 数据挖掘里我打算整理的内容有:分类,聚类分析,关联分析,异常检测四大部分。其中分类算法主要介绍:K-近邻算法,决策树算法,朴素贝叶斯算法前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现转载 2016-07-25 10:58:27 · 3114 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(3)朴素贝叶斯
算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分类特征统计不足,或者分类特征选择有误导致了错误的分类结果,哪怕是训练集也有可能出现不能正确分类的情形。这时,前两种方法都如同现实生活一样是用“少数服算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分转载 2016-07-25 11:16:16 · 1895 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(6)logistic回归
由于我们在前面已经讨论过了神经网络的分类问题(参见《R语言与机器学习学习笔记(分类算法)(5)》),如今再从最优化的角度来讨论logistic回归就显得有些不合适了。Logistic回归问题的最优化问题可以表述为:寻找一个非线性函数sigmoid的最佳拟合参数,求解过程可使用最优化算法完成。它可以看做是用sigmoid函数作为二阈值分类器的感知器问题。今天我们将从统转载 2016-07-25 11:21:17 · 14708 阅读 · 0 评论 -
生成模型与判别模型
http://www.cnblogs.com/kaituorensheng/p/3379170.html监督学习的任务就是学习一个模型,应用这个模型,对给定的输入预测相应的输出。这个模型一般为决策函数:Y=f(X) 或 条件概率分布:P(Y|X)。监督学习的学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。所转载 2016-08-26 22:08:52 · 1496 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(2)决策树算法
算法二:决策树算法 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolo算法二:决策树算法 决策树定义 首先,我们来谈谈什么是决策树转载 2016-07-25 10:59:36 · 7539 阅读 · 0 评论 -
距离和相似性度量
1. 计算距离r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2)来计算距离。 x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有:euclidean 欧几里德距离,就是平方再开方。maximum 切比雪夫距离manhattan 曼哈顿距离,绝对值原创 2016-08-01 18:39:04 · 3798 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(5)神经网络
算法五:神经网络(优化算法) 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是算法五:神经网络(优化算法) 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和转载 2016-07-25 11:19:46 · 4135 阅读 · 0 评论 -
R语言与数据挖掘学习笔记(常用的包)
今天发现一个很不错的博客(http://www.RDataMining.com), 博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天 开始,只要晚上能在11点之前把碗洗好,就花一个小时的时间学习博客上的内容,并把学习过程中记不住的信息记录下来,顺便把离英语四级的差距尽量缩小。下面列出了可用于转载 2016-07-25 11:24:19 · 410 阅读 · 0 评论 -
R语言与分类算法的绩效评估
关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。既然要对分类算法进行评价,那么我们自然得有评价依据。到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗?我们不妨考虑这么一个事实:一个样本集合里有95个正例,5个反例,分类器C1利用似然的思想将所有的实转载 2016-07-25 11:22:55 · 2618 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(4)支持向量机
算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。一、SVM的想法 回算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,转载 2016-07-25 11:18:45 · 1126 阅读 · 0 评论 -
Spark机器学习笔记3--探索和可视化数据
常用机器学习数据库UCL机器学习知识库Amazon AWS公开数据集KaggleKDnuggets【数据准备】在http://files.grouplens.org/datasets/movielens/下载用户电影评级数据,用户信息和属性信息。unzip命令解压文件1) 安装IPython和matplotlib模块IPython是针对Python的高级交原创 2016-06-30 22:51:10 · 2453 阅读 · 0 评论 -
Spark机器学习笔记2--设计机器学习系统
为智能分布式机器学习系统设计高层架构,该系统以Spark作为其核心计算引擎。现代的大数据场景包含如下需求:1) 必须与系统的其他组件整合,尤其是数据的收集和存储系统、分析和报告以及前端应用。2) 易于扩展且与其他组件相对独立。同时具备良好的水平和垂直可扩展性。3) 高效计算,支持机器学习和迭代式分析应用。4) 同时支持批处原创 2016-06-26 17:57:59 · 776 阅读 · 0 评论 -
机器学习实战笔记--决策树
本文为《机器学习实战》学习笔记 1. 决策树简介决策树可以从数据集合汇总提取一系列的规则,创建规则的过程就是机器学习的过程。在构造决策树的过程中,不断选取特征划分数据集,直到具有相同类型的数据均在数据子集内。 优点: 计算复杂度不高。输出结果易于理解,对缺失值不敏感,可以处理不相关的特征数据。 缺点: 可能会产生过度匹配问题。1.1 划分数据集划分数据集的最大原则是把无序数据变得有序。可以原创 2017-05-21 17:08:22 · 1481 阅读 · 0 评论