机器学习
纯生²⁰¹⁷⁺¹³
这个作者很懒,什么都没留下…
展开
-
机器学习--001 K-近邻算法简介
K-近邻算法简介 1.1 K-近邻算法(KNN)概念 K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法 ***定义*** 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 ***距离公式*** 两个样本的距离可以通...原创 2019-04-29 11:24:15 · 196 阅读 · 0 评论 -
逻辑回归---API简介
sklearn.linear_model.LogisticRegression(solver=‘liblinear’, penalty=‘l2’, C = 1.0) solver可选参数:{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}, 默认: ‘liblinear’;用于优化问题的算法。 对于小数据集来说,“liblinear”是个不错的选择,...原创 2019-05-07 22:22:12 · 374 阅读 · 0 评论 -
逻辑回归---1.简介
定义: 逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。 应用: 广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器 原理: 逻辑回归的输入...原创 2019-05-07 22:21:41 · 301 阅读 · 0 评论 -
线性回归之---6.API介绍及应用
sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化 fit_intercept:是否计算偏置 LinearRegression.coef_:回归系数 LinearRegression.intercept_:偏置 sklearn.linear_model.SGDRegressor(loss=“squared_loss”...原创 2019-05-07 13:30:32 · 274 阅读 · 0 评论 -
线性回归---5.梯度下降法介绍
1.全梯度下降法 FG 定义: 计算训练集所有样本误差,对其在求取平均值作为目标函数 缺点: 计算整个数据集,梯度下降慢 计算量有限 不能在线更新模型,即在运行过程中,不能增加新的样本 容易陷入局部最优解 2.随机梯度下降算法 SG 定义: 计算单个样本的误差,每次只带入计算一个样本函数的梯度来更新权重,再取下一个样本重复此过程,知道损失函数值停止下降或者函数值小于某个可以容忍的阈值. 缺点:...原创 2019-05-07 13:24:58 · 244 阅读 · 0 评论 -
线性回归---3.求导
定义: 求导是数学计算中的一个计算方法,它的定义就是,当自变量的增量趋于零时,因变量的增量与自变量的增量之商的极限。在一个函数存在导数时,称这个函数可导或者可微分。可导的函数一定连续。不连续的函数一定不可导。 常用导数公式 ...原创 2019-05-06 16:41:12 · 1520 阅读 · 0 评论 -
线性回归---2.api初步使用
1.线性回归API: sklearn.linear_model.LinearRegression() LinearRegression.coef_:回归系数 2…1举例 2.2步骤分析 获取数据集 数据的基本处理 特征工程 机器学习 模型评估 2.3代码 导入模块 from sklearn.linern.liner_model import LinearRegression 构造数据集 x = ...原创 2019-05-06 16:32:54 · 227 阅读 · 0 评论 -
线性回归之---1.0简介
一.线性回归的应用场景 房价预测 销售额度预测 贷款额度预测 二.什么是线性回归 定义: 线性回归是利用回归方程(函数),对一个或多个自变量(特征值)和因变量之间的关系进行建模的一种分析方式. 特点:只有一个自变量的情况称为单变量回归,多于一个自变量的情况叫做多元回归 通用公式: 矩阵表示 从列的角度看 三.线性回归的特征与目标的关系分析 线性关系—单变量线性关系 线性关系—多变量线性关...原创 2019-05-06 16:23:54 · 344 阅读 · 0 评论 -
机器学习 10 交叉验证,网格搜索 案例优化
什么是交叉验证? 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。 如图: 为什么需要交叉验证 为了让被评估的模型更加准确可信 怎么做到交叉验证 使用网格搜索 API: sklearn.model_selection.GridSearchCV...原创 2019-05-01 11:24:53 · 746 阅读 · 1 评论 -
机器学习 09 鸢尾花种类预测实现流程 -------第一个机器学习案例
机器学习的过程 1.获取数据集 2.数据基本处理 3.特征工程 4.机器学习(模型训练) 5.模型评估 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sk...原创 2019-04-29 15:08:59 · 581 阅读 · 0 评论 -
机器学习 08 特征工程 特征预处理
是什么? 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程 为什么? 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征 怎么做? 归一化 标准化 详解归一化,此部分理解即可 定义: 通过对原始数据进行变换把数据映射到(默认为[0,1])之间 公式: 作用于每一列,max为一列的最大值,min为一列...原创 2019-04-29 15:06:37 · 243 阅读 · 0 评论 -
机器学习03 K值的选择
K值过小: 容易受到异常点的影响 K值的减小就意味着整体模型变得复杂,容易发生过拟合; eg:判断是不是人? 眼睛,鼻子,黄皮肤 皮肤颜色为过拟合 k值过大: 受到样本均衡的问题 与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。 eg:判断是不是人? 特征值:眼睛,鼻子原创 2019-04-29 11:46:19 · 387 阅读 · 0 评论 -
逻辑回归---3.回归评估方法--精确率与召回率
精确率与召回率 什么是混淆矩阵 在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类) 精确率: 预测结果为正例样本中真实为正例的比例 召回率:真实为正例的样本中预测结果为正例的比例(查得全,对正样本的区分能力) 还有其他的评估标准,F1-score,反映了模型的稳健型 分类评估报告A...原创 2019-05-07 22:27:16 · 3833 阅读 · 0 评论