机器学习
至肝主义圈毛君
Game Building
展开
-
【机器学习笔记】分类算法与回归算法的区别
回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测;回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是...原创 2019-11-29 14:23:33 · 3862 阅读 · 0 评论 -
【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)
要点第一步:准备已知类别的数据集(比如不同类型的肠道肿瘤细胞),使用PCA进行简化。这些数据集被称为训练数据(Training Data)。 第二步:寻找合适的K值。K-Nearest Neighbors中的“K”表示序列号/数目。 第三步:从另一个肠道提取类别未知的新细胞加到PCA图中。 第四步:寻找新细胞的最近邻细胞。KNN是对数据进行分类的一种超级简单的算法。第一步:准...原创 2019-11-07 11:27:04 · 800 阅读 · 0 评论 -
【机器学习笔记】Decision Trees(决策树)
内容概述通俗地讲,决策树提出一个问题,然后根据回答者的答案将回答者区分。 决策树图中,最上面的只有指出箭头的结点称为“根结点”,中间既有指入又有指出的结点称为“内部结点”,下方只有指入箭头的绿色结点称为“叶结点”。 那么决策树应该如何建立呢? 根结点该如何选择? 作出每个特征的树状图后,通过算法计算出每个特征与心脏疾病的相关性。 我们将使用“Gini(基尼)”来比较它们谁更不纯。 ...原创 2019-11-06 20:14:47 · 417 阅读 · 1 评论 -
【机器学习笔记】Regularization : Ridge Regression(岭回归)
要点总览线性回归,即最小二乘法,它的目的是最小化残差平方的总和。 而岭回归需要在此基础上增加lambda x 所有参数的平方之和(如斜率等,除y轴截距外),这部分被称为岭回归补偿(RidgeRegression Penalty)。 lambda值(也叫调整参数,tuning parameter)可以由0到正无穷,随着lambda值的增大,我们预测的Size随着Weight的变化会越来越...原创 2019-11-05 10:12:19 · 4908 阅读 · 1 评论 -
【机器学习笔记】Machine Learning Fundamentals: Cross Validation(交叉验证)
首先我们有一组医疗数据,以有无心脏疾病为标准记录各个患者的特征。然后给出一名新患者的特征信息,判断他是否得心脏疾病。接着我们要选出一种最合适的机器学习方法。然而方法有许多种,包括logistics regression(逻辑回归)、K-nearest neighbors(最近邻算法)、support vector machine(支持向量机、SVM)等等,我们该如何从中挑选?C...原创 2019-11-04 17:48:26 · 671 阅读 · 0 评论 -
【机器学习笔记】Machine Learning Fundamentals: Bias(偏差)、Variance(方差)、Overfit(过度拟合)
假设有一群老鼠,我们测量,并在二维坐标系中记录它们的身高以及对应的体重,这些点似乎都在某一条曲线的附近,但我们并不知道准确的方程式,所以我们可以使用两种机器学习的方法来估算它们的关系(直线和波纹线)。我们要做的第一件事情是将数据划分成两个部分,一部分用作训练机械学习的算法,另一部分用作测试。我们要使用的第一种机器学习算法是线性回归(Linear Regression),也称作“最小...原创 2019-11-04 15:00:19 · 783 阅读 · 2 评论