机器学习
文章平均质量分 75
柚子味的羊
这个作者很懒,什么都没留下…
展开
-
机器学习应用篇(十)——工业蒸汽数据分析
机器学习应用篇(十)——工业蒸汽数据分析一、导入数据二、读取数据三、数据可视化(特征)四、原创 2022-01-15 15:16:44 · 1593 阅读 · 0 评论 -
机器学习应用篇(九)——基于线性判别模型的分类
机器学习应用篇(九)——基于线性判别模型的分类(手写数字分类)文章目录机器学习应用篇(九)——基于线性判别模型的分类(手写数字分类)一、Introduction1 LDA的优点2 LDA的缺点3 LDA在模式识别领域与自然语言处理领域的区别二、Demo三、基于LDA 手写数字的分类四、小结一、Introduction线性判别模型(LDA)在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PC原创 2022-01-13 15:25:51 · 595 阅读 · 0 评论 -
机器学习应用篇(八)——基于BP神经网络的预测
机器学习应用篇(八)——基于BP神经网络的预测文章目录机器学习应用篇(八)——基于BP神经网络的预测一、Introduction1 BP神经网络的优点2 BP神经网络的缺点二、实现过程1 Demo2 基于BP神经网络的乳腺癌分类预测三、Keys一、Introduction1 BP神经网络的优点非线性映射能力:BP神经网络实质上实现了一个从输入到输出的映射功能,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。这使得其特别适合于求解内部机制复杂的问题,即BP神经网络具有较强的非线性映原创 2022-01-12 14:57:34 · 4520 阅读 · 0 评论 -
机器学习应用篇(七)——基于LightGBM的分类预测
机器学习应用篇(七)——基于LightGBM的分类预测文章目录机器学习应用篇(七)——基于LightGBM的分类预测一、Introduction1 LightGBM的优点2 LightGBM的缺点二、实现过程1 数据集介绍2 Coding三、KeysLightGBM的重要参数基本参数调整针对训练速度的参数调整针对准确率的参数调整针对过拟合的参数调整一、IntroductionLightGBM是扩展机器学习系统。是一款基于GBDT(梯度提升决策树)算法的分布梯度提升框架。其设计思路主要集中在减少数据对内原创 2022-01-11 15:24:48 · 4742 阅读 · 3 评论 -
机器学习应用篇(六)——基于天气数据集的XGBoost分类
机器学习应用篇(六)——基于天气数据集的XGBoost分类文章目录机器学习应用篇(六)——基于天气数据集的XGBoost分类一、XGBoost1 XGBoost的优点2 XGBoost的缺点二、实现过程1 数据集2 实现一、XGBoostXGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。1 XGBoost的优点简单易用。相对其他机器学习库,用户可以轻松使用XGBoost并获得相当不错的效果。高效可扩展。在处理大规模数据集时速度快效果好,对内存等硬件资源要求不高原创 2022-01-10 16:27:04 · 4167 阅读 · 10 评论 -
机器学习应用篇(五)——决策树分类实例
机器学习应用篇(五)——决策树分类实例文章目录机器学习应用篇(五)——决策树分类实例一、数据集二、实现过程1 数据特征分析2 利用决策树模型在二分类上进行训练和预测3 利用决策树模型在多分类(三分类)上进行训练与预测三、KEYS1 构建过程2 划分选择3 重要参数一、数据集小企鹅数据集该数据集一共包含8个变量,其中7个特征变量,1个目标分类变量。共有150个样本,目标变量为 企鹅的类别 其都属于企鹅类的三个亚属,分别是(Adélie, Chinstrap and Gentoo)。包含的三种种企鹅的七原创 2022-01-08 14:33:11 · 13025 阅读 · 6 评论 -
机器学习应用篇(四)——基于决策树算法的分类预测
机器学习应用篇(四)——基于决策树算法的分类预测文章目录机器学习应用篇(四)——基于决策树算法的分类预测一、决策树的特点1.优点2.缺点二、决策树的适用场景三、demo一、决策树的特点1.优点具有很好的解释性,模型可以生成可以理解的规则。可以发现特征的重要程度。模型的计算复杂度较低。2.缺点模型容易过拟合,需要采用减枝技术处理。不能很好利用连续型特征。预测能力有限,无法达到其他强监督模型效果。方差较高,数据分布的轻微改变很容易造成树结构完全不同。二、决策树的适用场景决策树原创 2022-01-07 10:30:20 · 1184 阅读 · 0 评论 -
机器学习应用篇(三)——基于支持向量机的分类预测
机器学习应用篇(三)——基于支持向量机的分类预测文章目录机器学习应用篇(三)——基于支持向量机的分类预测1、Question?2、Answer!——SVM3、软间隔4、超平面支持向量机常用于数据分类,也可以用于数据的回归预测1、Question?我们经常会遇到这样的问题,给你一些属于两个类别的数据(如子图1),需要一个线性分类器将这些数据分开,有很多分法(如子图2),现在有一个问题,两个分类器,哪一个更好?为了判断好坏,我们需要引入一个准则:好的分类器不仅仅能够很好的分开已有的数据集,还能对为知的数原创 2022-01-05 18:09:47 · 3493 阅读 · 0 评论 -
机器学习应用篇(二)——KNN
机器学习应用篇(二)——KNN文章目录机器学习应用篇(二)——KNN一、KNN分类中k值的作用二、KNN分类——鸢尾花数据集三、KNN回归四、马绞痛数据——KNN数据预处理+KNN分类pipeline一、KNN分类中k值的作用#%%KNN做分类#库函数导入import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom sklearn.neighbors impo原创 2022-01-04 16:24:23 · 2156 阅读 · 0 评论 -
机器学习应用篇(一)——朴素贝叶斯
机器学习应用篇(一)——朴素贝叶斯文章目录机器学习应用篇(一)——朴素贝叶斯1、鸢尾花案例2、小结朴素贝叶斯(Naive Bayes,NB):朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。朴素贝叶斯算法一般应用在文本分类,垃圾邮件的分类,信用评估,钓鱼网站检测等。1、鸢尾花案例#%%库函数导入import warningswarnings.filterwarnings('ignore')import numpy as np# 加载莺尾花数据集from sklearn import原创 2022-01-04 10:12:19 · 1676 阅读 · 0 评论 -
机器学习深入篇(三)——逻辑回归
机器学习深入篇(三)——逻辑回归文章目录机器学习深入篇(三)——逻辑回归代码实现1、sigmod函数2、代价函数3、决策边界4、数据绘制5、特征绘制6、预测(分类)代码实现1、sigmod函数function g = sigmoid(z)g = 1./(1+exp(1).^(-z));end2、代价函数function [J, grad] = costFunctionReg(theta, X, y, lambda)m = length(y); % number of training e原创 2021-10-05 18:52:12 · 146 阅读 · 0 评论 -
Python机器学习(一)
Python机器学习(一)今天数据分析课程开始讲解关于机器学习的知识点了,所以我开始继续给大家更新啦,一方面是自己的课下总结,一方面也希望对各位小码提供帮助。1.机器学习算法分类按照目前掌握的机器学习理论,给大家讲解的机器学习理论大概可以分为如下两类:教师指导下的学习——是指数据数据已经有明确分类标签的学习。无教师指导的学习——是指数据未经分类的学习。教师指导下的学习的目标有两个:分...原创 2020-05-06 10:16:13 · 506 阅读 · 0 评论 -
机器学习深入篇(二)——多项式回归源码实现
机器学习深入篇(二)——多项式回归源码实现文章目录机器学习深入篇(二)——多项式回归源码实现一、代码实现二、实验结果三、小结本篇接着上一篇说到的求解最小θ值,上篇使用梯度下降法,本篇使用正规方程计算。一、代码实现import numpy as np#定义样本数据x=[1,2104,5,1,45,1,1416,3,2,40,1,1534,3,2,30,1,852,2,1,36]x=np.reshape(x,[4,5])y = [460,232,315,178]y=np.reshape(y,原创 2021-09-17 17:18:27 · 308 阅读 · 0 评论 -
机器学习深入篇(一)——多项式回归源码实现
这里写自定义目录标题机器学习深入篇(一)——多项式回归源码实现一、多项式回归原理二、Python代码实现三、结果展示机器学习深入篇(一)——多项式回归源码实现最近准备深入学习机器学习,随笔记录,希望可以对大家有帮助。看吴恩达的机器学习,良心课程一、多项式回归原理略(课程有详解)二、Python代码实现import numpy as npfrom matplotlib import pyplot as plt#定义样本数据a = np.random.standard_normal((1, 5原创 2021-09-16 15:22:16 · 354 阅读 · 0 评论 -
机器学习基础篇(十二)——多层感知机
机器学习基础篇(十二)——多层感知机一、概述多层感知机(MLP:Multi-Layer Perceptron)由感知机(PLA: Perceptron Learning Algorithm)推广而来。它最主要的特点是有多个神经元层,因此也叫深度神经网络(DNN: Deep Neural Networks)。感知机是单个神经元模型,是较大神经网络的前身。神经网络的强大之处在于它们能够学习训练数据中的表示,以及如何将其与想要预测的输出变量联系起来。从数学上讲,它们能够学习任何映射函数,并且已经被证明是一种原创 2021-02-26 10:53:57 · 16436 阅读 · 2 评论 -
机器学习基础篇(十一)——主成分分析法
机器学习基础篇(十一)——主成分分析法一、简介当我们对含有多个变量的数据进行观测时,我们会收集大量的数据然后分析他们。大样本的数据集固然提供了丰富的信息,但是在一定程度上增加了问题的复杂性。如果我们分别对每个指标进行分析,往往得到的结论是孤立的,并不能完全利用数据蕴含的信息。但是盲目的去减少我们分析的指标,又会损失很多有用的信息。所以我们需要找到一种合适的方法,一方面可以减少分析指标,另一方面尽量减少原指标信息的损失由于不同的指标中存在着相关关系,所以我们可以考虑将关系紧密的指标合成一些新的变原创 2021-02-25 10:31:15 · 2476 阅读 · 0 评论 -
机器学习基础篇(十)——聚类
机器学习基础篇(十)——聚类一、概论在前几节(5-9)知识中我们学习的是有关于监督学习的算法,本节开始我们将要开始学习无监督学习的相关知识。在一个典型的监督学习中,我们有一个有标签的训练集。我们的目标是找到能够区分正样本和负样本的决策边界。与此不同的是,在无监督学习中,我们的数据没有附带任何标签。我们会通过分析大量的无标签数据,来发现数据内在的一些结构特征。今天我们将讲解无监督学习的常见算法——聚类。二、聚类如图所示,是一个典型的无监督学习样本的相关数据,数据集中没有标签存在。显然我们可以原创 2021-02-24 20:14:49 · 842 阅读 · 0 评论 -
机器学习基础篇(九)——支持向量机
机器学习基础篇(九)——支持向量机一、简介支持向量机(SVM:Support Vector Machine)是机器学习中常见的一种分类算法。在时机应用中,我们常会遇到这样的问题:给定一些数据点,他们分别属于两个不同的类。我们现在要找到一个线性分类器吧这些数据分成A,B两类。最贱的办法是:画一条先,然后将他们分成两类。线的一侧属于A类,另一侧属于B类。SVM算法可以让我们找到这样一个最佳的线(超平面),来划分数据。相比于KNN之类的算法,SVM算法只需要计算一次,得出最佳线(超平面)即可。面对测试数据,原创 2021-02-23 10:40:18 · 670 阅读 · 2 评论 -
机器学习基础篇(八)——逻辑回归
机器学习基础篇(八)——逻辑回归一、简介分类问题是机器学习中常见的一种问题,而逻辑回归则是非常适合二分类问题的一种算法。逻辑回归可以将数据集中的点划分成为两个类别。例如,我们可以将数据分成A类和B类。模型将给出特定数据点属于B类的概率,如果它低于0.5,那么就属于A类。如果高于0.5,那么该数据点属于B类。(大部分情况下阈值设为0.5,特定情况下也可以设置为其他值)举个栗子 如图所示,学生考试是否成功通过是一个典型的二分类问题。学生的考试是否成功是由输入值所决定的,输入值既有连续性变量又有离散原创 2021-02-22 10:43:08 · 498 阅读 · 1 评论 -
机器学习基础篇(七)——朴素贝叶斯
机器学习基础篇(七)——朴素贝叶斯一、前言机器学习中常见的一个问题就是如何把未知的数据分到先前已经知晓的类别中去。比如我们想对一个未知的水果进行分类,而我们已经知道分类特征如下:如图所示,我们有三个现有的水果类别:苹果,蓝莓和椰子。这些水果中的每一种都有三个我们关心的特征:大小,重量和颜色。通过观察未知水果我们发现,这个水果大小适中(moderate),但是很重(heavy),并且还是红色(red)的。我们可以将这些特征与我们已经知道的特征进行比较,由此判断它是什么类型的水果。若未知水果像椰子一样重原创 2021-02-21 10:20:36 · 499 阅读 · 0 评论 -
机器学习基础篇(六)——KNN
机器学习基础篇(六)——KNN一、简介K-Nearest Neighbors(KNN) 是机器学习中的一个基础分类算法。1.工作原理首先我们需要一个训练样本集,并且样本集中每个数据都存在标签。存在标签就代表我们知道样本集中每一个数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较。提取出样本集中特征最相似数据(最近邻)的分类标签,作为该数据的标签。一般情况下,我们只选择样本集中前K个最相似的数据,作为新数据分类的参考。K一般是一个小于20的整数原创 2021-02-20 11:21:22 · 613 阅读 · 0 评论 -
机器学习基础篇(五)——决策树
机器学习基础篇(五)——决策树一、简介决策树是机器学习的一种分类器算法(特定情况也可以用于回归),基于特征对实例进行分类的过程,可以认为是if-then的集合。决策树的思想很简单,类似于我们平时做选择的过程,为了方便理解,让我们模拟一个现实情境:假如你是Mike,你在考虑自己在某一天是否要去商场购物,你会基于什么信息做出是否购物的决定?你可能会考虑自己的家里物品的存量是不是足够用,会考虑到当天的天气是好是坏,也可能要考虑当天是否需要上班。Mike会基于这些因素,来判断当天是否去购物。下图是Mike原创 2021-02-18 20:50:24 · 1276 阅读 · 2 评论 -
机器学习基础篇(四)——交叉验证
机器学习基础篇(四)——交叉验证一、概述交叉验证是在机器学习建立模型和验证模型参数时常用的办法。顾名思义,交叉验证就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏,在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。二、Holdout交叉验证Holdout 交叉验证就是将原始的数据集随机分成两组,一组为测试集,一组作为训练集。我们使用训练集对模型进行训练,再使用测试集对原创 2021-02-10 10:50:35 · 4168 阅读 · 0 评论 -
机器学习基础篇(三)——正则化
机器学习基础篇(三)——正则化一、概述在前两节,我们建立了适当的模型,并且使用训练集对模型进行训练,然后我们在测试集中,使用模型预测,最终得到了预测值,将预测值与测试集的实际值进行比较,得出评分,不同的评分代表了模型的准确性不同,当我们观察一组数据中,会发现其中存在基础数据和噪音数据,对于模型而言,我们只希望训练基础数据而不希望受到噪音数据的干扰。下面是一个数据集,我们看一下用不同模型拟合数据集的情况。图1使用线性模型来拟合数据# 线性模型import matplotlib.pyplot as原创 2021-02-09 18:17:22 · 335 阅读 · 0 评论 -
机器学习基础篇(二)——过拟合与欠拟合
机器学习基础篇(二)——过拟合与欠拟合一、概述在机器学习时,时常会出现许多问题。最常见的两个问题是过拟合和欠拟合。为了更形象的理解这些概念,我们想象一个机器学习模型,它试图学习如何对数字分类,并且能够访问一组训练数据和一组测试数据二、过拟合当模型从训练数据中学习得太彻底的时候哦,模型会受到过度拟合的影响,在实际测试中表现不佳,这通常是因为在训练数据中学习了过多特征引起的。例如在数字分类问题的训练中,如果学习了特征中容易引起误导的微小细节(例如以杂散标记作为特定数字的指示),模型将会出现过度拟合的原创 2021-02-06 12:11:07 · 317 阅读 · 0 评论 -
机器学习基础篇(一)——线性回归
机器学习——基础篇(一)数据之间可以有很多种不同的相互关系,因此,如果我们可以缩小选项的范围,并且编写更少的代码去分析这些数据,这将会对我们寻找的过程有所帮助。其中有一种关系是线性相关关系,如果我们发现数据中有这种关系存在,我们就可以使用线性回归的方法来分析他们。一、概述线性回归是一种用来分析一个或多个自变量与一个因变量之间的线性关系的技术。它意味着数据中的点集中在一条直线周围。而简单的线性回归仅仅涉及到单一的自变量。1.具有线性关系的数据集案例# 线性回归import matplotlib原创 2021-02-06 11:20:23 · 1037 阅读 · 0 评论 -
数据分析之数据处理(五)
数据分析之数据处理(五)一、数据标准化案例应用八类产品的两个指标value1,value2,其中value1权重为0.6,value2权重为0.4通过0-1标准化,判断哪个产品综合指标状况最好1.创建数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')# step 1 创建数据df=pd.DataF原创 2021-01-31 21:22:07 · 960 阅读 · 0 评论 -
数据分析之数据处理(四)
数据分析之数据处理(四)原创 2021-01-31 15:30:58 · 356 阅读 · 2 评论 -
数据分析之数据处理(三)
数据分析之数据处理(三)一、异常值处理异常值是指样本中的个别值,其数值明显偏离其余的观测值异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补异常值分析(1)3б原则:如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过3倍的值:p(|x - μ| > 3σ) ≤ 0.003(2)箱型图分析(一)3б原则1.创建数据import warningswarnings.filterwarnin原创 2021-01-31 10:52:15 · 908 阅读 · 0 评论 -
数据分析之数据处理(二)
数据分析之数据处理(二)一、拉格朗日插值法实际运用1、创建数据# 1.1创建数据data=pd.Series(np.random.rand(100)*100)data[3,6,33,56,45,66,67,80,90]=np.nanprint(data.head())print('\n*******总数据量:%i******\n'%len(data))运行结果2、缺失值的数量# 1.2缺失值的数量data_na=data[data.isnull()]print('\n******原创 2021-01-30 22:15:11 · 395 阅读 · 2 评论 -
数据分析之数据处理(一)
数据分析之数据处理(一)一、缺失值处理数据确实是主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大的影响,导致结果不确定性更加显著缺失值的处理:删除记录/数据插补/不处理import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy import stats# %matplotlib in原创 2021-01-30 21:28:31 · 6335 阅读 · 0 评论 -
数据分析之数据特征分析(二)
数据分析之数据特征分析(二)注:本篇数据来源:提取码:xthm一、分布分析接上篇—>数据分析之数据特征分析(一)# 绘制房屋朝向直方图x=len(r_cx)plt.figure(num=1,figsize=(12,4))plt.grid=Trueplt.bar([p for p in range(x)],r_cx['频率'], width=0.8, color='k', alpha=0.5)plt.xticks([p for p in原创 2021-01-30 17:45:32 · 258 阅读 · 0 评论 -
数据分析之数据特征分析(一)
数据分析之数据特征分析(一)一、分布分析分布分析 → 研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量极差 / 频率分布情况 / 分组组距及组数二、对比分析三、统计分析附:cmap的类型'Accent', 'Accent_r', 'Blues', 'Blues_r', 'BrBG', 'BrBG_r', 'BuGn', 'BuGn_r', 'BuPu', 'BuPu_r', 'CMRmap', 'CMRmap_r', 'Dark2', 'Dark2_r','GnBu原创 2021-01-29 17:52:57 · 2499 阅读 · 1 评论