纯生²⁰¹⁷⁺¹³-CSDN博客

原创逻辑回归---3.回归评估方法--精确率与召回率

精确率与召回率什么是混淆矩阵在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)精确率: 预测结果为正例样本中真实为正例的比例召回率:真实为正例的样本中预测结果为正例的比例（查得全，对正样本的区分能力）还有其他的评估标准，F1-score，反映了模型的稳健型分类评估报告A...

2019-05-07 22:27:16 3807

sklearn.linear_model.LogisticRegression(solver=‘liblinear’, penalty=‘l2’, C = 1.0)solver可选参数:{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}，默认: ‘liblinear’；用于优化问题的算法。对于小数据集来说，“liblinear”是个不错的选择，...

2019-05-07 22:22:12 361

原创逻辑回归---1.简介

定义:逻辑回归（Logistic Regression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归，但是它与回归之间有一定的联系。由于算法的简单和高效，在实际中应用非常广泛。应用:广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子，我们可以发现其中的特点，那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器原理:逻辑回归的输入...

2019-05-07 22:21:41 284

转载线性回归---7,正则化的线性模型

Ridge Regression 岭回归Lasso 回归Elastic Net 弹性网络Early stopping1 Ridge Regression (岭回归，又名岭回归是线性回归的正则化版本，即在原来的线性回归的 cost function 中添加正则项（regularization term）: Tikhonov regularization)以达到在拟合数据的同时，使模型权...

2019-05-07 22:16:59 347

原创线性回归---7.欠拟合和过拟合

定义:过拟合:训练集表现好,测试集表现不好欠拟合:训练集,测试集表现都不好原因及解决办法:欠拟合:特征过少解决办法:添加其他特征项添加多项式特征过拟合:特征过多,嘈杂特征,尝试兼顾太多解决办法:重新清洗数据增大数据的训练量正则化减少特征维度,防止维灾难正则化定义:在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据的异常点较多,所以在学习的时候尽...

2019-05-07 22:12:10 329

原创线性回归之---6.API介绍及应用

sklearn.linear_model.LinearRegression(fit_intercept=True)通过正规方程优化fit_intercept：是否计算偏置LinearRegression.coef_：回归系数LinearRegression.intercept_：偏置sklearn.linear_model.SGDRegressor(loss=“squared_loss”...

2019-05-07 13:30:32 264

原创线性回归---5.梯度下降法介绍

1.全梯度下降法 FG定义:计算训练集所有样本误差,对其在求取平均值作为目标函数缺点:计算整个数据集,梯度下降慢计算量有限不能在线更新模型,即在运行过程中,不能增加新的样本容易陷入局部最优解2.随机梯度下降算法 SG定义:计算单个样本的误差,每次只带入计算一个样本函数的梯度来更新权重,再取下一个样本重复此过程,知道损失函数值停止下降或者函数值小于某个可以容忍的阈值.缺点:...

2019-05-07 13:24:58 237

原创线性回归---4.线性回归的损失和优化

1.什么是损失真是值和预测值之间的误差公式:最小二乘法2.如何进行优化第一种方法正规方程举例详解:1.特征值逆矩阵乘特征值原矩阵乘特征值逆矩阵 * 目标值矩阵 T 就是矩阵转置 -1就是逆矩阵第二种方法梯度下降概念梯度是微积分中一个很重要的概念在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率在多变...

2019-05-06 20:52:19 1331

原创线性回归---3.求导

定义:求导是数学计算中的一个计算方法，它的定义就是，当自变量的增量趋于零时，因变量的增量与自变量的增量之商的极限。在一个函数存在导数时，称这个函数可导或者可微分。可导的函数一定连续。不连续的函数一定不可导。常用导数公式...

2019-05-06 16:41:12 1505

原创线性回归---2.api初步使用

1.线性回归API:sklearn.linear_model.LinearRegression()LinearRegression.coef_：回归系数2…1举例2.2步骤分析获取数据集数据的基本处理特征工程机器学习模型评估2.3代码导入模块from sklearn.linern.liner_model import LinearRegression构造数据集x = ...

2019-05-06 16:32:54 219

原创线性回归之---1.0简介

一.线性回归的应用场景房价预测销售额度预测贷款额度预测二.什么是线性回归定义:线性回归是利用回归方程(函数),对一个或多个自变量(特征值)和因变量之间的关系进行建模的一种分析方式.特点:只有一个自变量的情况称为单变量回归,多于一个自变量的情况叫做多元回归通用公式:矩阵表示从列的角度看三.线性回归的特征与目标的关系分析线性关系—单变量线性关系线性关系—多变量线性关...

2019-05-06 16:23:54 330

原创机器学习 10 交叉验证，网格搜索案例优化

什么是交叉验证？交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。如图：为什么需要交叉验证为了让被评估的模型更加准确可信怎么做到交叉验证使用网格搜索API：sklearn.model_selection.GridSearchCV...

2019-05-01 11:24:53 732 1

原创小知识点分析-----fit_transform和transform的区别

fit_transform是fit和transform的组合。fit(x,y)传两个参数的是有监督学习的算法，fit(x)传一个参数的是无监督学习的算法，比如降维、特征提取、标准化。机器学习的算法可以分为：监督学习：特征值+目标值回归问题：目标值是连续的分类问题：目标值是离散的无监督学习：特征值半监督学习：有特征值，但是一部分数据有目标值，其他数据没有目标值强化学习型：根...

2019-04-29 15:17:12 323

原创机器学习 09 鸢尾花种类预测实现流程 -------第一个机器学习案例

机器学习的过程1.获取数据集2.数据基本处理3.特征工程4.机器学习(模型训练)5.模型评估from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sk...

2019-04-29 15:08:59 571

原创机器学习 08 特征工程特征预处理

是什么？通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程为什么？特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征怎么做？归一化标准化详解归一化，此部分理解即可定义：通过对原始数据进行变换把数据映射到(默认为[0,1])之间公式：作用于每一列，max为一列的最大值，min为一列...

2019-04-29 15:06:37 228

原创机器学习 07 查看数据分布+数据集的划分

数据分布使用到了seaborn介绍：Seaborn 是基于 Matplotlib 核心库进行了更高级的 API 封装，可以让你轻松地画出更漂亮的图形。而 Seaborn 的漂亮主要体现在配色更加舒服、以及图形元素的样式更加细腻。安装：安装 pip3 install seabornseaborn.lmplot() 是一个非常有用的方法，它会在绘制二维散点图时，自动完成回归拟合sns.l...

2019-04-29 13:57:50 3886

原创机器学习 06 scikit-learn 数据集介绍

案例用到的数据来源于scikit-learn获取数据集sklearn.datasets 加载获取流行数据集 **datasets.load_*()** 获取小规模数据集，数据包含在datasets里 **datasets.fetch_*(data_home=None)** 获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home...

2019-04-29 12:57:14 363

原创机器学习 05 Scikit-learn简介

https://scikit-learn.org/stable/ scikit-learn官网一安装pip3 install scikit-learn==0.19.1注意安装scikit-learn需要Numpy, Scipy等库二 Scikit-learn包含的内容Scikit-learn的基本功能主要被分为六大部分：分类，回归，聚类，数据降维，模型选择和数据预处理2.1分类...

2019-04-29 12:50:43 189

原创机器学习04 kd树

为什么要使用kd树k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K近邻。当训练集很大时，计算非常耗时。为了提高kNN搜索的效率，可以考虑使用特殊的结构存储训练数据，以减小计算距离的次数。什么是kd树kd树：为了避免每次都重新计算一遍距离，算法会把距离信息保存在一棵树里，这样在计算之前从树里查询距离信息，尽量避免重新计算。其基本...

2019-04-29 12:25:40 482

原创机器学习03 K值的选择

K值过小：容易受到异常点的影响K值的减小就意味着整体模型变得复杂，容易发生过拟合；eg：判断是不是人?眼睛，鼻子，黄皮肤皮肤颜色为过拟合k值过大：受到样本均衡的问题与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。eg：判断是不是人?特征值：眼睛，鼻子

2019-04-29 11:46:19 371

转载机器学习02 距离度量

简单介绍几种距离度量方式1 欧式距离(Euclidean Distance)：欧氏距离是最容易直观理解的距离度量方法，我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。举例:X=[[1,1],[2,2],[3,3],[4,4]];经计算得:d = 1.4142 2.8284 4.2426 1.4142 2.8284 1.41422.2...

2019-04-29 11:36:50 662

原创机器学习--001 K-近邻算法简介

K-近邻算法简介1.1 K-近邻算法(KNN)概念 K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法 ***定义*** 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。 ***距离公式*** 两个样本的距离可以通...

2019-04-29 11:24:15 187

singularity1980的博客