人工智能
文章平均质量分 72
涵盖机器学习,深度学习内容
起名字什么的好难
在自我提升的路上奔腾不息~
展开
-
XGBoost算法案例与调参实例
XGBoost优化的分布式梯度增强库,旨在实现高效,灵活和便携。在Gradient Boosting框架下实现机器学习算法。提供了并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。 相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决超过数十亿个样例的问题。利用了核外计算并且能够使数据科学家在一个主机上处理数亿的样本数据。最终,将这些技术进行结合来做一个端到端的系统以最少的集群系统来扩展到更大的数据集上。以CART决策树为子模型,通过Gradi原创 2021-04-26 23:47:25 · 2595 阅读 · 0 评论 -
前向分布算法与梯度提升决策树
前向分布算法思路从前向后,每一步学习一个基函数及其系数,最终逐步逼近优化目标函数式。出自前向分布算法。前向分布算法流程前向分布算法将同时求解从m=1m=1m=1到MMM所有参数βm,γm\beta_m, \gamma_mβm,γm的优化问题简化为逐次求解各个βm,γm\beta_m, \gamma_mβm,γm的优化问题。参见前向分步算法。梯度提升决策树算法出自提升方法与梯度提升决策树。输入:训练集;损失函数L(y,f(x))L(y,f(x))L(y,f(x))输出:回归树f^(x)原创 2021-04-24 00:53:59 · 174 阅读 · 0 评论 -
Boosting思路与Adaboost算法
Boosting思路类似于bagging集成学习,boosting也是通过重采样得到多个弱分类器,最后得到一个强分类器。区别是boosting是基于权值的弱分类器集成。Boosting流程图1.e表示某个弱分类器的错误分类率,计算用来作为这个分类器的可信度权值a,以及更新采样权值D。2.D表示原始数据的权值矩阵,用来随机采样。刚开始每个样本的采样概率都一样,为1/m。在某个弱分类器分类时,分类错误或对,则D就会根据e相应地增加或减少,那么分错的样本由于D增大,在下一次分类采样时被采样的概率增加了,原创 2021-04-21 00:17:28 · 335 阅读 · 0 评论 -
Bagging的原理和案例分析
Bagging原理Bagging集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。Bagging的核心在于自助采样(bootstrap), 即有放回的从数据集中进行采样。Bagging的基本流程:首先随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终获得一个大小为K的样本集合。同样的方法采样出T个含K个样本的采样集合,然后基于每个采样集合训练出一个基学习器,再将这些基学习器进行结合。对回归问题的预测是通过预测取平均值来进行的。对于原创 2021-04-18 00:48:21 · 1320 阅读 · 0 评论 -
集成学习之投票法
投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。回归投票法:预测结果是所有模型预测结果的平均值。分类投票法:预测结果是所有模型种出现最多的预测结果。分类投票法又可以被划分为硬投票与软投票:硬投票:预测结果是所有投票结果最多出现的类。软投票:预测结果是所有投票结果中概率加和最大的类。当投票合集中使用的模型能预测出清晰的类别标签时,适合使用硬投票。当投票集合中使用的模型能预测类别的概率时,适合使用软投票。软投票同样可以用于那些本身并不预测类成员概原创 2021-04-14 23:49:21 · 841 阅读 · 0 评论 -
分类模型评估及超参数优化
分类问题可以划分为两类:二分类问题及多分类问题,误差和精度误差和精度是性能评估的两个最基本的指标。这两个指标具有很好的普适性,同时适⽤于⼆分类和多分类问题。误差是指分类错误的样本数占样本总数的⽐例,精度是指分类正确的样本数占样本总数的⽐例。f(x)f(x)f(x)表⽰模型的预测值, signsignsign函数当其内部条件满⾜是为111 不满⾜时为000。准确率,召回率和 F Score准确率,召回率和 F Score 是评价⼆分类问题的重要评价指标。准确率(Precision)和召回率(R原创 2021-03-30 00:45:44 · 792 阅读 · 0 评论 -
(DataWhale组队学习)集成学习之机器学习基础——掌握基本的分类模型
本文是记录(DataWhale组队学习)集成学习上Task5学习过程中遇到的一些比较重要的概念。个人感觉每个概念都非常重要且涉及内容很多,全部放在一篇文章中既会让文章晦涩难懂,也不便于理解。所以在这篇博文中只是阐述他们的基本概念,后续会抽时间对每个概念分篇逐一详述。回归中度量模型好坏的指标逻辑回归模型基于概率的分类模型线性判别分析贝叶斯朴素贝叶斯降维决策树回归决策树分类决策树基尼系数交叉熵支持向量机非线性支持向量机核函数参考资料:DataWhale——team-learni原创 2021-03-27 23:56:17 · 206 阅读 · 0 评论 -
机器学习参数与超参及超参调优
参数定义:模型内部的配置变量,可以用数据估计它的值。特征:进行模型预测时需要模型参数。模型参数值可以定义模型功能。模型参数用数据估计或数据学习得到。模型参数一般不由实践者手动设置。模型参数通常作为学习模型的一部分保存。例子:人造神经网络中的权重。支持向量机中的支持向量。线性回归或逻辑回归中的系数。超参数定义:模型外部的配置,其值不能从数据估计得到。特征:模型超参数常应用于估计模型参数的过程中。模型超参数通常由实践者直接指定。模型超参数通常可以使用启发式方法来设置。模原创 2021-03-24 20:16:45 · 1979 阅读 · 0 评论 -
机器学习中的方差与偏差
方差与偏差的定义方差与偏差的数学公式方差与偏差的重要性特征提取最优子集选择向前逐步选择正则化降维参考资料:偏差(Bias)与方差(Variance)机器学习模型的偏差与方差、过拟合和欠拟合http://scott.fortmann-roe.com/docs/BiasVariance.html...原创 2021-03-22 23:06:31 · 3594 阅读 · 0 评论 -
机器学习项目流程之度量指标和模型的选择
完整的机器学习项目流程:1)明确项目任务即回归还是分类2)收集数据集并选择合适的特征3)选择合适的指标用来度量模型性能4)选择合适的模型并训练优化模型。5)评估利用选择的度量指标衡量模型性能并调参回归问题中度量模型性能的指标:均方误差(MSE)MSE对误差进行的平方,意味着误差值越大,其平方值更大,对大误差值会十分敏感。均方根误差(RMSE)平均绝对误差(MAE)确定系数R^2 (R-Squared)度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1。值越接近原创 2021-03-19 01:02:00 · 901 阅读 · 0 评论 -
归一化、标准化和正则化
归一化把数据缩放到[0,1]范围内,常用方法是min-max scaling。标准化将数据缩放到符合均值为0标准差为1的正态分布。常用方法是z-score normalization。正则化向模型的损失函数中添加正则项防止过拟合。一般有L1正则和L2正则。L1正则和L2正则是由添加的正则项是什么范数决定的。L1正则是添加L1范数。L2正则是添加L2范数。参考资料:About Feature Scaling and Normalization – and the effect of原创 2021-03-16 15:13:03 · 182 阅读 · 0 评论 -
(DataWhale组队学习)集成学习之机器学习基础——机器学习三大主要任务
有监督学习和无监督学习的区别有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。常用的方法有线性回归(LR),支持向量机(SVM),置信度传播(BP),随机森林(RF),梯度提升迭代决策树( GBDT)无监督学习:对未标记的样本进行训练学习,并发现这些样本中的结构知识。常用方法K均值聚类(KMeans),深度学习 (DL)。回归和分类(有监督学习)回归:因变量是连续型变量,如:房价,体重等。分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。分类与原创 2021-03-15 20:49:04 · 239 阅读 · 0 评论 -
归一化、中心化和标准化
归一化:将样本的特征值转换到同一量纲下,把数据映射到[0,1]或者[-1, 1]区间内。(x - X_min) / (X_max - X_min)对不同特征维度的归一化的目的是使各个特征维度对目标函数的影响权重是一致的,提高迭代求解的收敛速度和精度。归一化消除了不同特征之间的数值相差很大从而导致结果不同的因素,但是数据会失去原始的一些信息。中心化:将数据均值变为0。x - μ标准化:依照特征矩阵的列处理数据,通过求z-score的方法,转换为标准正态分布。(x - μ)/σ对不同原创 2021-03-14 11:04:21 · 394 阅读 · 1 评论 -
PCA和ZCA Whitening方法以及他们对原始数据的影响
Code from his post:import numpy as npimport matplotlib.pyplot as pltnp.random.seed(1)mu = [0, 0]sigma = [[5, 4], [4, 5]] # must be positive semi-definiten = 1000x = np.random.multivariate_normal(mu, sigma, size=n).Tset1 = np.argsort(np.linalg.no原创 2021-01-02 19:24:27 · 294 阅读 · 1 评论 -
DatawhalTask04:不讲武德-炼丹与品尝
训练流程:设置各种超参数定义数据加载模块 dataloader定义网络 model定义损失函数 loss定义优化器 optimizer遍历训练数据,预测-计算loss-反向传播对模型预测进行后处理测试流程:读取一张图片预处理模型预测对模型预测进行后处理后处理:目标框信息解码NMS非极大值抑制#######此代码只包含单个图像后处理,批处理参考原文####### Decode object coordinates from the form we regres原创 2020-12-27 20:36:35 · 140 阅读 · 1 评论 -
风格迁移三部曲——杨培文博客
一次偶然发现的一篇杨培文写的关于风格迁移的文章:风格迁移三部曲。里面含有很多代码详解,有兴趣的可以仔细阅读下。GitHub地址: CortexFoundation/StyleTransferTrilogy原创 2020-12-23 18:41:11 · 270 阅读 · 2 评论 -
DatawhalTask03:化劲儿-损失函数设计
损失计算步骤:1)先验框与GT框的匹配为每个先验框都分配好类别,确定是正样本还是负样本。匹配原则(先后顺序固定):一:从ground truth box出发,寻找与每一个ground truth box有最大的jaccard overlap的prior bbox,这样就能保证每一个groundtruth box一定与一个prior bbox对应起来。二:从prior bbox出发,对剩余的还没有配对的prior bbox与任意一个ground truth box尝试配对,只要两者之间的jaccar原创 2020-12-22 20:32:30 · 124 阅读 · 0 评论 -
DatawhalTask02:练死劲儿-网络设计
计算机视觉第二次打卡草稿占个位原创 2020-12-19 18:42:12 · 133 阅读 · 3 评论 -
DataWhale金融风控组队学习Task05——模型融合
模型融合的方式平均:简单平均法pre = (pre1 + pre2 + pre3 +...+pren )/n加权平均法pre = 0.3pre1 + 0.3pre2 + 0.4pre3 投票:简单投票法from xgboost import XGBClassifierfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier, Voting原创 2020-09-27 23:19:16 · 166 阅读 · 0 评论 -
优化问题的封闭式解决方案(Closed form solution for optimization problem)
1)F范式的平方可以被写为迹的操作矩阵和它的逆矩阵相乘得到的矩阵的迹2)F范式平方的导数和的导数等于导数的和令等式等于0,得到参考链接:Closed form solution for optimization problem原创 2020-09-26 16:25:23 · 721 阅读 · 0 评论 -
Tensorflow运行程序出现Blas GEMM launch failed
问题:解决方法:参考博文:tensorflow显存不足报错CUBLAS_STATUS_ALLOC_FAILED原创 2020-09-26 10:18:34 · 1068 阅读 · 0 评论 -
DataWhale金融风控组队学习Task04——建模调参
模型调参贪心调参先使用当前对模型影响最大的参数进行调优,达到当前参数下的模型最优化,再使用对模型影响次之的参数进行调优,如此下去,直到所有的参数调整完毕。的缺点就是可能会调到局部最优而不是全局最优树模型中参数调整的顺序,也就是各个参数对模型的影响程度①:max_depth、num_leaves②:min_data_in_leaf、min_child_weight③:bagging_fraction、 feature_fraction、bagging_freq④:reg_lambda、reg_原创 2020-09-24 23:26:31 · 154 阅读 · 0 评论 -
DataWhale金融风控组队学习Task03——特征工程
原文出处:team-learning-data-mining/FinancialRiskControl/Task3 特征工程.md数据预处理查找出数据中的对象特征和数值特征numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))label原创 2020-09-21 23:53:31 · 1280 阅读 · 0 评论 -
DataWhale金融风控组队学习Task02——数据分析
# nan可视化missing = data_train.isnull().sum()/len(data_train)missing = missing[missing > 0]missing.sort_values(inplace=True)missing.plot.bar()numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)category_fea = list(filter(lamb原创 2020-09-18 23:41:41 · 277 阅读 · 0 评论 -
DataWhale金融风控组队学习Task01——赛事理解
原文链接:team-learning-data-mining/FinancialRiskControl/Task1 赛题理解.md阅读笔记训练文件.csv的数据含义:id 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限(year)interestRate 贷款利率installment 分期付款金额grade 贷款等级subGrade 贷款等级之子级employmentTitle 就业职称employmentLength 就业年限(年)homeOwner原创 2020-09-15 23:40:32 · 145 阅读 · 0 评论 -
Datawhale 零基础入门CV赛事-Task5 模型集成
import os, sys, glob, shutil, jsonfrom PIL import Imageimport numpy as npimport torchfrom torch.utils.data.dataset import Datasettorch.manual_seed(0)torch.backends.cudnn.deterministic = Falsetorch.backends.cudnn.benchmark = Trueimport torchvisio原创 2020-06-02 22:38:25 · 174 阅读 · 0 评论 -
Datawhale 零基础入门CV赛事-Task4 模型训练与验证
import os, sys, glob, shutil, jsonfrom PIL import Imageimport numpy as npimport torchfrom torch.utils.data.dataset import Datasettorch.manual_seed(0)torch.backends.cudnn.deterministic = Falsetorch.backends.cudnn.benchmark = Trueimport torchvisio原创 2020-05-30 11:39:52 · 199 阅读 · 1 评论 -
Datawhale 零基础入门CV赛事-Task3 字符识别模型
import os, sys, glob, shutil, jsonfrom PIL import Imageimport numpy as npimport torchfrom torch.utils.data.dataset import Datasettorch.manual_seed(0)torch.backends.cudnn.deterministic = Falsetorch.backends.cudnn.benchmark = Trueimport torchvision原创 2020-05-26 23:12:00 · 192 阅读 · 0 评论 -
Datawhale 零基础入门CV赛事-Task1 赛题理解
比赛链接:零基础入门CV赛事- 街景字符编码识别目的:识别真实街景图片中的数字。数据集:Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN)。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表原创 2020-05-20 22:28:43 · 178 阅读 · 0 评论 -
天池二手车拍卖赛题理解之模型融合
天池二手车交易价格预测赛题理解之模型融合原文链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.1cd8593aw4bbL5&postId=95535本文为个人阅读笔记,仅记录阅读过程中遇到的新知识。个人理解:这部分为通过将同一个模型对不同数据划分后训练的结果融合后再次训练或者将多个不同...原创 2020-04-04 21:57:30 · 409 阅读 · 0 评论 -
天池二手车拍卖赛题理解之建模调参
天池二手车交易价格预测赛题理解之特征分析模型和调参技巧原文链接:Datawhale 零基础入门数据挖掘-Task4 建模调参本文为个人阅读笔记,仅记录阅读过程中遇到的新知识。模型模型的简单建立#1.加载模型from sklearn.linear_model import LinearRegression#from sklearn.linear_model import Ridg...原创 2020-04-01 20:54:45 · 339 阅读 · 0 评论 -
天池二手车拍卖赛题理解之特征工程
天池二手车交易价格预测赛题理解之特征分析常见操作原文链接:Datawhale 零基础入门数据挖掘-Task3 特征工程本文为个人阅读笔记,仅记录阅读过程中遇到的新知识。数据归一化实现:(截图中的代码虽然定义了实现归一化的函数,但并没有调用。)对特征进行one-hot编码:删除不需要的数据:特征的筛选:1)通过相关性分析进行过滤2)通过包裹式过滤(没看懂)文字总结:特...原创 2020-03-28 10:45:53 · 387 阅读 · 2 评论 -
天池二手车拍卖赛题理解之数据分析
天池二手车交易价格预测赛题理解之数据分析常见操作原文链接:Datawhale 零基础入门数据挖掘-Task2 数据分析本文为个人阅读笔记,仅记录阅读过程中遇到的新知识。需要的数据处理包#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')import pa...原创 2020-03-24 19:00:22 · 525 阅读 · 0 评论 -
动手学深度学习:错误及问题笔记4
原创 2020-02-24 17:15:11 · 249 阅读 · 0 评论 -
动手学深度学习:错误及问题笔记3
原创 2020-02-24 17:07:16 · 342 阅读 · 0 评论 -
动手学深度学习:错误及问题笔记2
原创 2020-02-18 12:27:18 · 218 阅读 · 0 评论 -
动手学深度学习:错误及问题笔记1
习题错误:代码中不理解的地方:线性回归np.random.Normal()利用随机数种子来使pytorch中的结果可以复现Pytorch 为什么每一轮batch需要设置optimizer.zero_gradoptimizer.step是如何更新参数的Softmax与分类模型pytorch之gather()方法...原创 2020-02-14 11:32:37 · 326 阅读 · 0 评论