我是小卜首白啊-CSDN博客

原创小白的集成学习之路——Boosting(3)

XGBoost和LightGBM1.XGBoost1.1 简介XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。1.2 XGBoost树例子：要预测一家人对电子游戏的喜好程度，考虑到年轻和年老相比，年轻更可能喜欢电子游戏，以及男性和女性相比，男性更喜欢

2021-04-27 00:16:47 265

原创小白的集成学习之路——Boosting(2)

Gradient Boosting Decision Tree前提说明：本文是在我学习集成学习时的浅显总结，由于个人水平暂时有限，故基本没有推导与公式过程，可能部分内容还存在错误的理解，请谅解。GBDT 的全称是 Gradient Boosting Decision Tree（梯度提升树）1、前置知识1.1、向前分步走算法给定数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}

2021-04-23 11:10:04 146

原创小白的集成学习之路——Boosting

Boosting前提说明：本文是在我学习集成学习时的浅显总结，由于个人水平暂时有限，故基本没有推导与公式过程，可能部分内容还存在错误的理解，请谅解。一、总概：Boosting 是一类可将弱学习器提升为强学习器的算法。Boosting的理论依据来自，Valiant和 Kearns（1989）提出的经典理论问题："强可学习"和"弱可学习"问题是否等价。Schapire（1990）通过构造性方法，即第一个Boosting方法，证明此问题的答案是肯定的。故，我们得到如下结论：任何弱学习器都有被提升为强学习器的

2021-04-20 21:01:28 291

原创小白的集成学习之路——Bagging学习

Bagging前提说明：本文是在我学习集成学习时的浅显总结，由于个人水平暂时有限，故基本没有推导与公式过程，可能部分内容还存在错误的理解，请谅解。一、含义Bagging是（bootstrap aggregation）的缩写，并不是Bag的动名词形式。Bootstraping的名称来自于成语 ‘’pull up by your own bootstraps‘’，意思是依靠你自己的资源，称为自助法，它是一种有放回的抽样方法。可以看到，Bagging的两个关键词分别是“自助”和“聚合”。通过以上分析，我把

2021-04-17 21:19:39 974 1

原创 Datawhale集成学习Task7-投票法

Datawhale集成学习Task7-投票法[1]. https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning[2].https://blog.csdn.net/Carohuan/article/details/100983254?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-1&spm=100

2021-04-14 23:30:41 211 2

原创 Datawhale集成学习Task6

评估模型的性能并调参0.0 概述网格搜索、随机搜索混淆矩阵的绘制ROC曲线fetch_lfw_people数据集识别1.0 超参数搜索之前的课程记录过了，这里就不重复工作了，请见https://blog.csdn.net/weixin_39800983/article/details/1151910722.0 混淆矩阵代码实现：# 混淆矩阵：# 加载数据df = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learnin

2021-03-30 01:21:07 103

原创 docker使用---修改docker的默认存储路径

docker使用—修改docker的默认存储路径参考于https://www.cnblogs.com/yaun1498078591/p/11970369.html，为了方便以后自己查找以及防止链接崩了的情况，特地记录下来。默认情况下，docker镜像的默认存储路径是/var/lib/docker，这相当于直接挂载系统目录下，而一般在搭系统时，这个区都不会太大，所以如果长期使用docker开发应用，就需要把默认的路径更改到需要路径下或外挂存储1、docker镜像的默认路径docker info

2021-03-28 23:02:15 182 1

原创 DataWhale 集成学习task05--分类

集成学习task05–分类0 前言数据集: IRIS鸢尾花数据集度量指标: 准确率、精度、召回率、F1值、ROC曲线模型：逻辑回归、概率分类、决策树、支持向量机SVM、非线性支持向量机1 分类的度量指标1.1混淆矩阵TP： True Positives，表示实际为正例且被分类器判定为正例的样本数FP： False Positives，表示实际为负例且被分类器判定为正例的样本数FN： False Negatives，表示实际为正例但被分类器判定为负例的样本数TN： True N

2021-03-28 01:36:06 160 1

原创 DataWhale 集成学习task04--参数调优

DataWhale 集成学习task04–参数调优看到这次的学习内容，高兴坏了，终于不用肝了，哈哈哈哈哈！！！！前言本次回归模型调优的课程使用SVR的例子，结合管道来进行，数据集是波士顿房价。下面是baseline的演示：# 我们先来对未调参的SVR进行评价： from sklearn.svm import SVR # 引入SVR类from sklearn.pipeline import make_pipeline # 引入管道简化学习流程from sklearn.preproc

2021-03-25 00:31:05 164

原创 dataWhale集成学习task03

集成学习task3 — 模型优化概括本次task的学习内容主要包括：训练误差和测试误差过拟合、欠拟合偏差-方差特征提取(交叉验证、训练误差修正）正则化(L1、L2)降维(PCA)示例（向前逐步回归、L2回归、L1回归）1. 训练误差与测试误差在先前未观测到的输入上表现良好的能力称为泛化。即通常我们要找到一个泛化误差最小的模型。E(y0−f^(x0))2=Var⁡(f^(x0))+[Bias⁡(f^(x0))]2+Var⁡(ε)E\left(y_{0}-\hat{f}\left(

2021-03-23 01:09:44 81

原创 dataWhale集成学习task02

使用sklearn构建完整的机器学习项目流程----(使用sklearn构建完整的回归项目）一次完整机器学习项目的步骤：明确项目任务：回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。前言-数据集：Boston房价数据集工具：sklearn,numpy,pandas,matplotlib,seaborn涉及算法：- (1)线性回归----sklearn.linear_model.LinearRegressio

2021-03-19 00:35:58 104

原创 dataWhale集成学习task01

dataWhale集成学习task0一、概述机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。现实生活中常见的学习问题可以分为"监督学习"（supervised learning)和"无监督学习"(unsupervised learning)根据因变量的是否连续，有监督学习又分为回归和分类：List item回归：因变量是数值变量，如：房价，体重等。相应的模型称为“回归模型”List item分类：因变量是类别变量，如：是否患癌症，西瓜是好瓜还是坏瓜等

2021-03-16 00:26:40 130 1

翻译论文翻译———1 How to Fully Exploit The Abilities of Aerial Image Detector

How to Fully Exploit The Abilities of Aerial Image Detector 论文的部分翻译（ICCV 2019 )摘要：航空图像目标检测通常主要面临两个挑战：（1）检测困难的目标（例如，小目标，受背景干扰的目标或旋转的目标等）；（2）目标检测中固有的不平衡问题（例如，不同类别的数量不平衡，不平衡的采样方法或分类和定位之间的损失不平衡等）。由于这些挑战，检测器通常无法执行最有效的训练和测试。在本文中，我们提出了一个简单而有效的框架来解决这些问题。首先，我们提出了

2021-02-28 16:33:16 332

原创全球人工智能技术创新大赛【热身赛一】布匹疵点智能识别（基于mmdetection）

全球人工智能技术创新大赛【热身赛一】布匹疵点智能识别（基于mmdetection的docker配置及上传）之前用yolov5参考上传了一次，但是想到自己用的比较多的是mmdetection，所以打算用mmdetection配置一次，再次练习一下docker的使用，PS:这次我使用的是cascade_rcnn模型。一、Docker CE 及 nvidia-docker2 安装具体请参考大佬的文章，很详细的：Ubuntu 18.04安装Docker CE及nvidia-docker2流程二、数据的转换（

2021-02-22 14:44:28 1101 6

原创全球人工智能技术创新大赛热身赛

全球人工智能技术创新大赛【热身赛一】布匹疵点智能识别小白入门记录首先，这次的笔记是我参加全球人工智能技术创新大赛【热身赛一】布匹疵点智能识别的犯的错误以及遇到的问题的记录,之前没怎么使用过docker，费了九牛二虎终于把结果提交上去了。baseline的问题你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除

2021-02-20 17:02:03 512 6

weixin_39800983的博客