机器学习
文章平均质量分 62
一起学习,加油
轻窕
人生苦短,用用Python,抱抱开源,创创辉煌
展开
-
Python机器学习--在线学习(Online learning)与离线学习(Offline\Batch learning)区别
前言机器学习领域中,可将机器学习算法分为在线学习和离线学习。最近在学习实时机器学习或者说增量学习相关的内容,今天使用creme这个库介绍下Online Learning的原理,以及Online Learning和Batch Learning的一些区别。Online Learning和Batch Learning的区别Batch就是目前常用的计算模式,需要离线数据,离线训练,离线评估,然后上线。也就是我们说的离线学习也通常称为批学习。离线学习的好处就是比较稳定,可以用大量数据集去训练和评估原创 2021-12-09 16:55:18 · 5643 阅读 · 3 评论 -
❤️Python机器学习❤️--StandardScaler/MinMaxScaler/Normalizer之间的区别
一、数据标准化StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布)标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下常用与基于正态分布的算法,比如回归二、数据归一化MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的)提升模型收敛速度,提升模型精度常见用于神经网络三、Normalizer (基于矩阵的行,将样本向量转换为单位向量)其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统原创 2021-10-24 00:00:00 · 737 阅读 · 0 评论 -
❤️Python机器学习❤️--XGBoost模型不要求数据标准化详情
在使用机器学习模型之前,通常我们会对数据进行预处理,来消除noise、提升模型表现。通常根据不同模型的不同性质,需要进行的预处理也不尽相同。那么,对于当下数据分析竞赛中非常火的XGBoost来说,转化为正态分布、去除极端值、Normalization等数据预处理是否有必要呢?本文就来具体地分析一下。一、XGBoost需要去除异常值异常值是现实生活中不太可能取到的值,通常是人为原因导致的数据记录错误。有一些值我们明显发现是错误的、异常的。例如一个人的身高不可能是10m,一个人的体重不可能是875kg原创 2021-10-13 17:26:05 · 3749 阅读 · 4 评论 -
❤️Python机器学习❤️--xgboost 和onehot是否使用归一化(标准化)
一、xgboost是否需要对数据进行归一化首先,归一化是对连续特征来说的。所以连续特征的归一化,起到的主要作用是进行数值缩放。数值缩放的目的是解决梯度下降时,等高线是椭圆导致迭代次数增多的问题。而xgboost等树模型是不能进行梯度下降的,因为树模型是阶越的,不可导。树模型是通过寻找特征的最优分裂点来完成优化的。由于归一化不会改变分裂点的位置,因此xgboost不需要进行归一化。二、xgboost是否需要进行onehotxgboost支持离散类别特征进行onehot编码,因为xgboost只支持原创 2021-10-13 17:13:29 · 2107 阅读 · 0 评论 -
❤️Python机器学习❤️--分类算法实现--Sklearn中的分类算法关键参数详解
分类算法KNN分类算法基于Sklearn中的关键参数from sklearn.neighbors import KNeighborsClassifierKNeighborsClassifier(n_neighbors=5 , weights='uniform' , algorithm='auto' ,leaf_size=30 ,原创 2021-09-26 00:15:56 · 1141 阅读 · 0 评论 -
❤️Python机器学习❤️--聚类算法实现--Sklearn中的聚类算法关键参数详解
聚类算法K-Means算法基于Sklearn中的参数from sklearn.cluster import KMeansKMeans(n_clusters=8 , init='k-means++' ,n_init=10 ,max_iter=300 , tol=0.0001 , precompute_distances='auto' , verbose=0 ,random_state=None原创 2021-09-26 00:03:26 · 549 阅读 · 0 评论 -
Python机器学习--算法是否需要数据标准化
需要标准化KNN、K-means、线性回归【SGD、岭回归、套索回归】、逻辑回归、不需要标准化朴素贝叶斯、线性回归【正规方程】、决策树、随机森林、xgboost什么时候标准化规范的流程:先拆分、后标准化 原因:在训练集上寻找对应的标准化参数【标准差标准化寻找 均值、标准差; 离差标准化 寻找 最小值 最大值;小数定标标准化 寻找 绝对值最大的数】;之后在训练集和测试集进行转换...原创 2021-09-04 17:04:27 · 1150 阅读 · 1 评论 -
Pythons机器学习--sklearn导包合集
# 分类算法1.KNNfrom sklearn.neighbors import KNeighborsClassifier2.朴素贝叶斯from sklearn.naive_bayes import BernoulliNB # 特征值是二分类from sklearn.naive_bayes import GaussianNBfrom sklearn.naive_bayes import MultinomialNB3.逻辑回归【二分类】from sklearn.linear_m..原创 2021-09-04 16:51:34 · 690 阅读 · 0 评论 -
Python机器学习--聚类-分类-回归三大算法评估指标
算法评估指标简介对于聚类,分类,回归三大算法类,有不同的算法评估指标,不同的评估指标.分类算法常用评估指标:准确率,查准率,查全率,F1-score,PR曲线,ROC曲线和AUC指标,ROC曲线下的面积就是AUC指标. 聚类算法常用评估指标:轮廓系数 SSE(误差平方和) 回归算法的评估指标:R方范围[-inf,1] (真实值与预测 ),MSE,MAE,RMSE分类算法评估指标混淆矩阵在介绍评估指标之前,先来认识一下混淆矩阵,在分类任务下,预测结果和真实结果之间存在四种不同组合,这四种原创 2021-09-04 14:55:50 · 4121 阅读 · 0 评论 -
Python机器学习--集成学习--XGBoost算法
XGBoost算法类型:XGBoost算法:属于集成学习算法 ,与随机森林类似,也由多颗决策树组成XGBoost算法既可以解决分类问题,也可以解决回归问题。后一棵树是在前一个树的基础上生成的后一棵树只需要拟合前K棵树和真实结果之间的误差误差可以用负梯度表示;因此可叫 梯度提升树XGboost是计算一阶导数和二阶导数,因此又称为 极端梯度提升树集成学习算法集成学习算法是通过训练多个学习器,然后把这些学习器组合起来,以达到更好的预测性能的目的。集成学习算法的分类:Bagging:弱原创 2021-09-04 14:25:15 · 1467 阅读 · 0 评论 -
Python机器学习--集成学习算法--随机森林算法
随机森林算法类型随机森林算法:属于集成学习算法,通俗点讲,就是将多颗决策树集合起来,就变成了随机森林。随机森林包含了回归森林和分类森林,因此随机森林既可以解决分类问题,可以解决回归问题集成学习算法集成学习算法是通过训练多个学习器,然后把这些学习器组合起来,以达到更好的预测性能的目的。集成学习算法的分类Bagging:弱学习器的生成没有先后顺序,可以进行并行训练,如果是分类任务,则预测结果为多个弱学习器的预测结果取众数,如果是回归任务,则预测结果会取多个学习器的平均值。 Boosti.原创 2021-09-04 14:12:04 · 1544 阅读 · 0 评论 -
Python机器学习--分类\回归--决策树算法
决策树算法类型决策树是一系列算法,而不是一个算法。决策树包含了 ID3分类算法,C4.5分类算法,Cart分类树算法,Cart回归树算法。决策树既可以做分类算法,也可以做回归算法。因此决策树既可以解决分类问题,也可以解决回归问题。一般来讲,在决策树中,根节点和分节点使用方块表示,而叶子节点使用椭圆表示。决策树的关键点在于如何取建立出一个树,如何建立出一个在可以达成目标的前提下深度最浅的树决策树中不同算法的介绍CLS、ID3、C4.5、CART四种,其中ID3、C4.5、CAR.原创 2021-09-03 23:27:39 · 2695 阅读 · 2 评论 -
Python机器学习--回归算法--逻辑回归算法
逻辑回归算法类型有监督学习的分类算法【只能做二分类】逻辑回归算法原理将线性回归的结果输入sigmoid函数中,得出预测为类1的概率(如果概率为0.2 有20%的可能属于类1,属于类0的概率是80%; 结果是类0如果概率为0.8 有80%的可能属于类1,属于类0的概率是20%; 结果是类1)线性回归算法方程sigmoid函数公式和图像逻辑回归的结果是基于线性回归计算出来的,线性回归的质量好坏会直接影响逻辑回归的结果,影响线性回归的就是回归系数。对于线性回归来说...原创 2021-09-03 21:35:05 · 196 阅读 · 0 评论 -
Python机器学习--回归算法--线性回归
线性回归算法的类型有监督学习的回归算法【标签是连续数据类型】线性回归基础研究父子身高关系研究父辈身高(自变量x)如何决定子辈身高(因变量y)建立方程表征关系:y = kx+b-------------这个方程是 回归方程什么是线性?什么是线性回归方程 什么是非线性回归方程?①y = kx+b ②y=$a_1x_1^2+a_2x_2^2 + c$ ③ $y = a_1x_1+a_2x_2 + c$①和③是线性方程 ----自变量x的幂 是1次方②非线性方程----自变量x的幂 大于等原创 2021-09-03 20:35:36 · 3229 阅读 · 0 评论 -
Python机器学习--分类算法--朴素贝叶斯算法
朴素贝叶斯算法的类型有监督学习的分类算法朴素贝叶斯算法的原理基于贝叶斯理论和特征相互独立的假设;因为假定特征相互独立让问题变的简单,因为称为朴素 朴素贝叶斯算法分为:伯努利朴素贝叶斯,高斯朴素贝叶斯,多项式朴素贝叶斯。篇幅较长,可根据旁边的目录来看朴素贝叶斯算法第一站:概率公式条件概率公式:为(即在事件B发生的情况下,事件A发生的概率):当A,B相互独立时P(AB) = P(A)∗P(B)全概率公式:贝叶斯公式:朴素贝叶斯算法第二站...原创 2021-08-31 22:07:25 · 4147 阅读 · 1 评论 -
Python机器学习--聚类算法--K-means(K-均值)算法
K-means算法的类型与介绍K- means算法的类型无监督学习的聚类算法;聚类算法是无监督的一种算法、K-means是一种聚类算法;K-means算法的介绍K-means算法的定义所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能的高,而不同子集的元素相似度尽可能的低。其中每个子集叫做一个簇。聚类目的:类内相似、类间相异聚类算法与分类算法不同,分类是示例式学习,要求分类前明确各个类别,并原创 2021-08-31 13:30:43 · 1611 阅读 · 0 评论 -
Python机器学习--分类\回归算法--KNN(K最近邻)算法
KNN算法介绍与类型K最近邻(K-Nearest Neighbors,KNN)算法是一种基本的分类和回归算法【有监督学习】,也是最简单易懂的机器学习算法,没有之一。1968年由Cover和Hart提出,应用场景有字符识别、文本分类、图像识别等领域。算法的思想: 一个样本与数据集中的k个样本最相似, 如果这k个样本中的大多数属于某一个类别, 则该样本也属于这个类别。KNN算法的原理1.计算测试样本与训练集中所有样本之间的相似度(使用距离表征相似度.)2.按照距离递增排序3.选择与测原创 2021-08-31 00:22:19 · 1873 阅读 · 0 评论 -
机器学习基础
1、理解人工智能、机器学习、深度学习的关系 机器学习是实现人工智能的一种途径 深度学习属于机器学习、可以使AI更快的落地2、认识特征和标签 数据集1:有特征有标签 ======>有监督学习 数据集2:有特征无标签 ======>无监督学习半监督学习:再有监督学习和无监督学习之间,数据只有一少部分有标签3、机器学习算法分类 红色既可以做分类算法 也可以做回归算法...原创 2021-08-27 13:16:10 · 107 阅读 · 2 评论