机器学习
文章平均质量分 77
机器学习模型
—Xi—
机器学习/数据挖掘/爬虫/推荐系统
展开
-
【机器学习-分类模型评价指标】混淆矩阵&分类报告
混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Analysis)等方法。 混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数,很难衡量模型的优劣。因此混淆矩阵在基本的统计结果上又延伸了如下4个指标 在实际场景中,有时候需要同时关注精准率和召回率。这种情原创 2022-08-26 14:00:09 · 7192 阅读 · 0 评论 -
【机器学习】模型融合
模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法。转载 2023-03-23 14:56:48 · 1183 阅读 · 1 评论 -
【机器学习】吴恩达作业1.0,python实现线性回归预测
在本部分的练习中,您将使用一个变量实现线性回归,以预测食品卡车的利润。假设你是一家餐馆的首席执行官,正在考虑不同的城市开设一个新的分店。该连锁店已经在各个城市拥有卡车,而且你有来自城市的利润和人口数据。您希望使用这些数据来帮助您选择将哪个城市扩展到下一个城市损失函数梯度下降函数维度X(m,n)y(m,1) theta(n,1)读取数据import numpy as npimport pandas as pdimport matplotlib.pyplot as...原创 2022-03-25 21:57:18 · 17049 阅读 · 11 评论 -
【机器学习】吴恩达作业2.0,python实现线性可分logistic逻辑回归
2.1 Logistic回归模型 (线性可分)预测一个学生是否被大学录取。假设你是大学某个院系的管理员,你想通过申请人在两门考试中的表现来决定每个人的录取率,你有来自以前申请人的历史数据,你可以用这些数据作为训练集建立Logistic回归,对每一个训练样本,你有申请人在两门考试中的分数和录取决定。建立一个分类模型,基于这两门课的分数来估计申请人的录取概率。https://blog.csdn.net/weixin_44750583/article/details/88377195线性可分..原创 2022-04-01 10:49:37 · 5988 阅读 · 6 评论 -
【机器学习】吴恩达作业2.1,python实现线性不可分logistic逻辑回归
2.1.Logistic回归模型 (线性不可分)用正则化的Logistic回归模型来预测一个制造工厂的微芯片是否通过质量保证(QA),在QA过程中,每个芯片都会经过各种测试来保证它可以正常运行。假设你是这个工厂的产品经理,你拥有一些芯片在两个不同测试下的测试结果,从这两个测试,你希望确定这些芯片是被接受还是拒绝,为了帮助你做这个决定,你有一些以前芯片的测试结果数据集,从中你可以建一个Logistic回归模型。正则化:如果有过多特征,则假设函数会很好的拟合训练集,代价函数可能近于0,但是泛化性很差原创 2022-04-01 10:51:00 · 3344 阅读 · 9 评论 -
【机器学习】吴恩达作业3.0,python实现逻辑回归手写多分类问题
3.0 多元逻辑回归案例:手写多分类问题使用逻辑回归和神经网络来识别手写数字(从0到9)。逻辑回归,并将其应用于one-vs-all分类。数据:本次的数据是以.mat格式储存的,mat格式是matlab的数据存储格式,按照矩阵保存,与numpy数据格式兼容,适合于各种数学运算,因此这次主要使用numpy进行运算。ex3data1中有5000个训练样例,其中每个训练样例是一个20像素×20像素灰度图像的数字,每个像素由一个浮点数表示,该浮点数表示该位置的灰度强度。每个20×20像素的网格被展开成一原创 2022-04-01 12:09:41 · 4119 阅读 · 6 评论 -
【机器学习】吴恩达作业4.0,python实现神经网络反向传播(BP算法)
4.0神经网络反向传播实现神经网络的反向传播算法,并将其应用于手写数字识别任务。实现反向传播算法来学习神经网络的反向传播BP算法由信号的正向传播和误差的反向传播两个过程组成。正向传播时,输入样本从输入层进入网络,经隐层逐层传递至输出层,如果输出层的实际输出与期望输出(导师信号)不同,则转至误差反向传播;如果输出层的实际输出与期望输出(导师信号)相同,结束学习算法。反向传播时,将输出误差(期望输出与实际输出之差)按原通路反传计算,通过隐层反向,直至输入层,在反传过程中将误差分摊给各层的各原创 2022-04-01 21:49:51 · 3638 阅读 · 5 评论 -
【机器学习】吴恩达作业7.1,python实现PCA主成分分析
7.1主成分分析主成分分析(PCA)来实现降维。首先用一个二维的样本集来实验,对PCA如何运行的有一个直观的感受,然后再在一个更大的由5000个人脸图像组成的数据集上实现PCA。降噪 :降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。降维具有如下一些优点:使得数据集更易使原创 2022-04-03 18:44:58 · 2326 阅读 · 2 评论 -
【机器学习】吴恩达作业3.1,python实现神经网络正向传播
3.1前馈神经网络使用前馈神经网络来识别手写数字(从0到9)。数据集MNIST手写体数据集,这里包含了5000个训练样本。之前用逻辑回归进行多元分类,这次用前馈神经网络进行预测。shen神经网络:类似于神经元细胞体,通过类似于树突的输入通道传递给神经元信息让它工作,再通过类似于轴突的输出通道输出结果。h在这里称为激活函数(activation function),我们称这个逻辑单元(logistic unit)是一个带激活函数的人工神经元(artificial neuron)。在激活函数中的参.原创 2022-04-01 20:00:08 · 2717 阅读 · 11 评论 -
【机器学习】python实现吴恩达机器学习作业合集(含数据集)
目录1.0 实现线性回归预测2.0 线性可分logistic逻辑回归2.1 线性不可分logistic逻辑回归3.0 logistic逻辑回归手写多分类问题3.1 神经网络正向传播4.0 神经网络反向传播(BP算法)5.0 方差与偏差6.0 SVM支持向量机7.0 kmeans聚类7.1 PCA主成分分析...原创 2022-04-04 22:11:11 · 32752 阅读 · 27 评论 -
【机器学习】吴恩达作业6.0,python实现SVM支持向量机
6.0支持向量机使用支持向量机(SVM)处理各种两维的样本数据集,了解支持向量机如何工作,以及如何使用带高斯核函数的SVM。SVM(鲁棒性,大间距分类器)支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的 间隔最大的线性分类器 ,间隔最大使它有别于感知机;SVM还包括 核技巧 ,这使它成为实质上的非线性分类器。 SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。 S原创 2022-04-02 16:33:17 · 3406 阅读 · 4 评论 -
【机器学习】编程实践流程
一、数据准备1 数据获取/存储方式2 数据标签化(特征工程)3 数据清洗与预处理二、方法选择1 合适方法2 合适超参数(意义和范围)3 编程实现(算法理解)三、工程流水线1 标准流程2 训练、测试集划分3 正确评价模型方式四、结果呈现(可视化)1 表达准确2 易于理解3 sexy(自己的风格)工具只是一种实现形式,没有优劣,大公司有现实需求,自己的工具五、sklearn库...原创 2022-04-07 13:17:20 · 1176 阅读 · 0 评论 -
【机器学习】吴恩达作业5.0,python实现方差与偏差
5.0 方差与偏差实现正则化线性回归,使用其来研究具有不同偏差-方差属性的模型。在练习的前半部分,您将使用水库水位的变化实现正则化线性回归来预测大坝的出水量。在下半部分中,您将对调试学习算法进行诊断,并检查偏差和方差的影响。本次的数据是以.mat格式储存的,x表示水位的变化,y表示大坝的出水量。数据集共分为三部分:训练集(X, y)、交叉验证集(Xval, yval)和测试集(Xtest, ytest)。高偏差:欠拟合 高方差:过拟合正则化(解决过拟合问题)惩罚系数过大...原创 2022-04-02 14:03:28 · 2246 阅读 · 1 评论 -
【机器学习】吴恩达作业8.0,python实现异常检测
8.0.异常检测实现异常检测算法,并将其应用于检测网络中的故障服务器。在第二部分中,您将使用协同过滤来构建电影推荐系统。在本练习中,您将实现一个异常检测算法来检测服务器计算机中的异常行为。这些特性度量每个服务器的吞吐量(mb/s)和响应的延迟(ms)。在服务器运行时,您收集了m = 307个关于它们行为的样本,因此有一个未标记的数据集{x(1),…,x(m)}。您怀疑这些样本中的绝大多数都是正常运行的服务器的“正常”(非异常)样本,但是也可能有一些服务器在这个数据集中异常运行的样本。您将使用高斯模型原创 2022-04-03 18:42:36 · 2761 阅读 · 0 评论 -
【机器学习】吴恩达作业8.1,python实现推荐系统(协同过滤算法)
8.1推荐系统 实现协同过滤算法并将它运用在电影评分的数据集上,最后根据新用户的评分来给新用户推荐10部电影。这个电影评分数据集由1到5的等级组成。数据集有nu = 943个用户和nm = 1682部电影。在计算完协同过滤的代价函数以及梯度后,将使用牛顿共轭梯度法求得参数。 数据集中,Y是一个(1682, 943)的矩阵,存储了从1到5的评分,矩阵R为二值指标矩阵,其中如果用户j对电影i进行评级,R(i, j)=1,否则R(i,j)=0。协同过滤的目的是预测用户尚未评分的电影的评分,即R(...原创 2022-04-04 20:15:06 · 4453 阅读 · 2 评论 -
【机器学习】特征工程梳理
一、特征工程特征工程:从数据到变量,利用数据所在领域的相关知识构建特征,使机器学习算法发挥其最佳的过程地位:数据和特征是上限,算法和训练时逼近这个上限实质:连接原始数据与模型,一系列分析的”起手式“。有无特征工程,是区别实验室学习和现实世界机器学习的界限主要内容:结构化:将非结构化数据(文本,图像,语言,音乐)结构化 预处理:清洗数据,填补缺失值 变量加工:将数据变形成更适合预测的形态 特征选择:基于理论/经验的 单变量评估 基于统计的多变量评估 基于机器学习的多变...原创 2022-04-19 14:07:38 · 287 阅读 · 0 评论 -
【机器学习】随机森林及调参 学习笔记
RF优点1.不容易出现过拟合,因为选择训练样本的时候就不是全部样本。2.可以既可以处理属性为离散值的量,比如ID3算法来构造树,也可以处理属性为连续值的量,比如C4.5算法来构造树。3.对于高维数据集的处理能力令人兴奋,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程度,这是一个非常便利的功能。4.分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法RF缺点。原创 2022-09-05 12:29:34 · 1157 阅读 · 1 评论 -
【机器学习】决策树原理、调参、可视化 + 银行信用卡欺诈检测案例(含数据集)
ID3是决策树学习算法中最具有影响和最为典型的算法,它的基本思想是,利用信息熵的原理,选择信息增益最大的属性作为分类属性。信息熵下降最快。原创 2022-08-30 21:52:32 · 2326 阅读 · 1 评论 -
【机器学习】K邻近算法
可用于分类或回归对于k邻近算法来讲,新数据点离谁最近,就和谁属于同一类。如果在模型训练的过程中选的最邻近数为1,很可能这个数据恰好是一个错误数据,因此,需要增加最近邻的数量,比如把最邻近数增加到3,K邻近算法用于回归的原理与分类相同,当我们用K邻近算法回归计算某个数据点的预测值时,模型会选择离该数据点最近的若干个训练数据集中的点,并将它们的y值取平均值,并将该平均值作为新数据点的预测值。...原创 2022-08-28 20:30:34 · 1132 阅读 · 0 评论