自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Kaggle项目:信用贷款欺诈检测

对信用贷款数据集进行清理和探索性数据分析(Exploratory Data Analysis),并尝试预测信用欺诈。

2023-06-09 10:00:01 2359 1

原创 利用MySQL与Tableau对公司员工信息进行统计及可视化

利用MySQL与Tableau对公司员工信息进行统计及可视化

2022-09-16 10:00:53 1134

原创 利用 Power BI 实现 RFM 分析

利用PowerBI实现RFM用户分层分析

2022-08-24 22:38:48 1708 2

原创 Kaggle项目:酒店预订需求数据的探索与预测

通过Python对酒店预订数据进行探索性数据分析(Exploratory Data Analysis)和预测分析(Predictive Analysis)

2022-08-21 11:54:09 5857 5

转载 7.5 sklearn中的逻辑回归中及正则化的学习笔记

在逻辑回归中添加多项式项,从而得到不规则的决策边界,进而对非线性的数据进行很好的分类。但是众所周知,添加多项式项之后,模型会变变得很复杂,非常容易出现过拟合。因此就需要使用正则化,且sklearn中的逻辑回归,都是使用的正则化。1.逻辑回归中使用正则化对损失函数增加L1正则或L2正则。可以引入一个新的参数α\alphaα来调节损失函数和正则项的权重,如:$ J(\theta)+\alpha L...

2020-04-19 22:41:24 814

转载 7.4 逻辑回归的决策边界及多项式的学习笔记

在逻辑回归算法中,可以求出各个参数的系数和截距,即参数组θ\thetaθ值。那这个参数有几何意义么?在本篇文章中会引出分类文中非常重要的一个概念:决策边界。通过对决策边界的学习,可以更加好的可视化分类结果。进而更好的理解分类算法。1.决策边界1.1 什么是决策边界回顾逻辑回归分类的原理:通过训练的方式求出一个n+1维向量θ\thetaθ,每当新来一个样本xbx_bxb​时,与参数θi\th...

2020-04-19 22:36:03 450 1

转载 7.3 逻辑回归代码实现与调用的学习笔记

1.逻辑回归代码实现我们在线性回归的基础上,修改得到逻辑回归。主要内容为:定义sigmoid方法,使用sigmoid方法生成逻辑回归模型定义损失函数,并使用梯度下降法得到参数将参数代入到逻辑回归模型中,得到概率将概率转化为分类import numpy as np# 因为逻辑回归是分类问题,因此需要对评价指标进行更改from metrics import accuracy_sco...

2020-04-19 22:31:38 168

转载 7.2 逻辑回归的本质及其损失函数的推导、求解的学习笔记

在上一篇文章介绍了逻辑回归的模型,并详细讲了其推导过程。为了加深印象,在这篇文章中从对数几率的角度再次探索逻辑回归的推导过程,看看逻辑回归为什么要使用sigmoid函数作为假设。逻辑回归损失函数的推导,也是面试时经常被问到的一个点,我们也从两个角度去学习其损失函数的推导过程。然后再计算损失函数的导数。1.从对数几率看逻辑回归1.1 推导过程一句话总结逻辑回归:逻辑回归假设数据服从伯努利分...

2020-04-19 22:29:03 734

转载 7.1 逻辑回归算法的学习笔记

逻辑回归(Logistic Regression,LR)。在Kaggle竞赛的统计中,LR算法以63.5%的出产率,荣获各领域中“出场率最高的算法”这一殊荣。在实际场景中,逻辑回归同样应用广泛,大到国家各项经济政策的制定,小到计算广告CTR,都能看到LR算的身影。除了应用广泛外,LR的建模过程还体现了数据建模中很重要的思想:对问题划分层次,并利用非线性变换和线性模型的组合,将未知的复杂问题分解为...

2020-04-19 22:24:45 257

转载 6.3L1正则、L2正则学习笔记

我们已经知道了模型误差 = 偏差 + 方差 + 不可避免的误差,且在机器学习领域中最重要就是解决过拟合的问题,也就是降低模型的方差。在上一篇文章《ML/DL重要基础概念:偏差和方差》已经列出了如下方法:降低模型复杂度减少数据维度;降噪增加样本数使用验证集其实还有一个降低方差的重要方法:模型正则化。本文从理论及代码两个方面对L1正则、L2正则进行了介绍,帮助大家了解其背后的原理以及实际...

2020-04-06 01:45:53 623

转载 6.2偏差和方差学习笔记

在机器学习中,过拟合和欠拟合都会使训练好的机器学习模型在真实的数据中出现错误。我们可以将错误分为偏差(Bias)和方差(Variance)两类。下面就来看看偏差和方差的定义、产生原因以及二者之间如何权衡。1.偏差和方差的定义偏差和方差的定义如下:偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。例如某模型的准确度为96%,则说明是低偏差;反之,如果准确度只有70%,则说明是...

2020-04-06 01:44:11 429

转载 6.1 浅析多项式回归与sklearn中的Pipeline学习笔记

在线性回归的背后是有一个很强的假设条件:数据存在线性关系。但是更多的数据之间具有非线性关系。因此对线性回归法进行改进,使用多项式回归法,可以对非线性数据进行处理。1.什么是多项式回归研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)。多项式回归是线性回归模型的一种,其回归函数关于回归系数是线性的。其中自变量x和因变量y之间的关系...

2020-04-06 01:43:43 293

转载 5.5 梯度下降番外:非常有用的调试方式及总结学习笔记

梯度下降法的使用,一个非常重要的步骤是:我们要求出定义的损失函数某一点上对应的梯度是什么。在复杂函数的情况下,求导得到梯度并不容易。如果我们梯度的计算错误了,在后续的程序中也不会报错。那么我们如何去发现这个错误呢?介绍一种简单的方法,能够对梯度下降法中求梯度的公式推导进行调试。下面我们在一组数据上,分别使用数学公式法和调试法来计算梯度,主要观察其结果与所消耗的时间。# 首先定义损失函数d...

2020-04-06 01:40:13 119

转载 5.4 速度更快的随机梯度下降法学习笔记

在之前介绍的梯度下降法的步骤中,在每次更新参数时是需要计算所有样本的,通过对整个数据集的所有样本的计算来求解梯度的方向。这种计算方法被称为:批量梯度下降法BGD(Batch Gradient Descent)。但是这种方法在数据量很大时需要计算很久。针对该缺点,有一种更好的方法:随机梯度下降法SGD(stochastic gradient descent),随机梯度下降是每次迭代使用一个样本来对...

2020-04-06 01:39:23 205

转载 5.3 线性回归中的梯度下降学习笔记

1、代码演示1.1 梯度下降代码def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4): """根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型""" assert X_train.shape[0] == y_train.shape[0], \ ...

2020-04-06 01:36:08 125

转载 5.2 手动实现梯度下降(可视化)学习笔记

1.导数的实现python中有两种常见求导的方法,一种是使用Scipy库中的derivative方法,另一种就Sympy库中的diff方法。1.1 Scipyscipy.misc.derivative(func, x0, dx=1.0, n=1, args=(), order=3)[source]在一个点上找到函数的第n个导数。即给定一个函数,请使用间距为dx的中心差分公式来计算x0处的...

2020-04-06 01:35:31 513

转载 5.1 解梯度下降法学习笔记

1.为什么需要梯度下降算法如果我们抛开具体场景,仅从数学抽象的角度来看:每个模型都有自己的损失函数,不管是监督式学习还是非监督式学习。损失函数包含了若干个位置的模型参数,比如在多元线性回归中,损失函数:(y−Xbθ)T(Xbθ)(y-X_b\theta)^T(X_b\theta)(y−Xb​θ)T(Xb​θ) ,其中向量θ\thetaθ表示未知的模型参数,我们就是要找到使损失函数尽可能小的参数未...

2020-04-06 01:32:50 315

转载 4.3 模型之母:多元线性回归学习笔记

在线性回归的前3篇中,我们介绍了简单线性回归这种样本只有一个特征值的特殊形式,并且了解了一类机器学习的建模推导思想,即:1.通过分析问题,确定问题的损失函数或者效用函数;2.然后通过最优化损失函数或者效用函数,获得机器学习的模型。然后我们推导并实现了最小二乘法,然后实现了简单线性回归。最后还以简单线性回归为例,学习了线性回归的评价指标:均方误差MSE、均方根误差RMSE、平均绝对MAE以及R方...

2020-03-22 21:51:31 263

转载 4.2 模型之母:简单线性回归的代码实现学习笔记

1.简单线性回归算法的实现构造一组数据,然后画图import numpy as npimport matplotlib.pyplot as pltx = np.array([1.,2.,3.,4.,5.])y = np.array([1.,3.,2.,3.,5,])plt.scatter(x,y)plt.axis([0,6,0,6])[0, 6, 0, 6]根据样本真实值...

2020-03-22 21:35:35 134

转载 4.1模型之母:简单线性回归&最小二乘法学习笔记

1.简单线性回归1.1 什么是简单线性回归kNN算法属于分类(Classification),即label为离散的类别型(categorical variable),如:颜色类别、手机品牌、是否患病等。而简单线性回归是属于回归(regression),即label为连续数值型(continuous numerical variable),如:房价、股票价格、降雨量等。那么什么是简单线性回归...

2020-03-22 21:33:11 312

转载 3.2 特征工程系列:特征预处理(上)学习笔记

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。虽然我们也有自动的机器学习框架,如 AutoML(但该框架也强调了它需要好的特征才能跑出好的效果!)。特征工程永不过时,即使对于自动化方法,其中也...

2020-03-15 22:43:02 367

转载 3.1 机器学习的敲门砖:归一化与KD树学习笔记

1.数据归一化1.1 为什么要数据归一化在实际应用中,样本的不同特征的单位不同,会在求距离时造成很大的影响。比如:在两个样本中肿瘤大小的分别为1cm和5cm,发现时间分别为100天和200天,那么在求距离时,时间差为100、大小差为4,那么其结果会被时间所主导,因为肿瘤大小的差距太小了。但是如果我们把时间用年做单位,0.27年与0.55年的差距又远小于肿瘤大小的差距,结果又会被大小主导了。在...

2020-03-15 22:41:58 364

转载 2.3 模型之母:线性回归的评价指标学习笔记

本篇内容就是关于回归模型的评价,首先介绍线性回归模型的三个常用评价方法,然后通过波士顿房产预测的实际例子,对评价方法进行代码实现。最后我们会隆重引出最好的衡量线性回归法的指标:R Square1.线性回归算法的衡量标准简单线性回归的目标是:已知训练数据样本x、y ,找到a和b的值,使Σ(y-ax-b)² 尽可能小衡量标准是看在测试数据集中y的真实值与预测值之间的差距。但是这里有一个问题,...

2020-03-15 16:41:58 435

转载 2.2 评价分类结果学习笔记

在机器学习中如何评价一个算法的好坏呢?对于一个回归问题,可以使用MSE、RMSE、MAE、R方。对于一个分类问题,可以使用分类精准度。但是实际上,分类精准度是存在陷阱的,有时候我们会需要更加全面的信息。1.分类算法的评价1.1 分类准确度够用么?对于一个癌症预测系统,输入检查指标,判断是否患有癌症,预测准确度99.9%。这个系统是好是坏呢?如果癌症产生的概率是0.1%,那其实根本不需要...

2020-03-15 16:39:19 423

转载 2.1 如何评价模型好坏_学习笔记

一、判断模型好坏1、鸢尾花train_test鸢尾花数据集是UCI数据库中常用数据集。我们可以直接加载数据集,并尝试对数据进行一定探索:import numpy as npfrom sklearn import datasetsimport matplotlib.pyplot as pltiris = datasets.load_iris()X = iris.datay = iri...

2020-03-15 16:34:54 1265

转载 1、初探kNN算法_学习笔记

1.kNN简介kNN(k-NearestNeighbor),也就是k最近邻算法。顾名思义,所谓K最近邻,就是k个最近的邻居的意思。也就是在数据集中,认为每个样本可以用离他最距离近的k个邻居来代表。2.kNN算法流程通过理解算法思想,可以将其简化为“找邻居+投票”。K近邻法使用的模型,实际上是特征空间的划分。模型由三个基本要素决定:距离度量k值分类决策规则其中两个实例点之间的距离反映...

2020-03-01 21:47:08 209 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除