自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 DW_图深度学习_Task_7

DW_图深度学习_Task_7学习内容:超大规模数据集类的创建及图预测任务实践学习地址: github/datawhalechina/team-learning-nlp/GNN/在之前的内容里,我们通过学习Cluster-GCN方法了解了超大图上的节点表征学习,在这一部分我们学习如何创建按需获取的超大规模数据集类,并进行图预测任务的实践目录超大规模数据集类的创建Dataset基类跳过下载或处理过程无需定义Dataset类图样本封装成批(BATCHING)与DataLoader类合并小图组成大图三级目

2021-07-10 00:01:35 152

原创 DW_图深度学习_Task_6

DW_图深度学习_Task_6学习内容:基于图神经网络的图表征学习方法学习地址: github/datawhalechina/team-learning-nlp/GNN/目录基于图同构网络(GIN)的图表征网络的实现图表征模块(GINGraphRepr Module)节点嵌入模块(GINNodeEmbedding Module)\图同构卷积层(GINConv)AtomEncoder 与 BondEncoder理论内容图同构性测试图相似性评估基于图同构网络(GIN)的图表征网络的实现本节内容主要是介

2021-07-05 22:46:49 535 2

原创 DW_图深度学习_Task_5

DW_图深度学习_Task_5学习内容:超大图上的节点表征学习学习地址: github/datawhalechina/team-learning-nlp/GNN/目录Cluster-GCN方法常规方法的瓶颈Cluster-GCN实践Cluster-GCN方法常规方法的瓶颈Cluster-GCN实践...

2021-07-01 22:22:45 151

原创 DW_图深度学习_Task_4

DW_图深度学习_Task_4学习内容:数据完全存于内存的数据集类节点预测与边预测任务实践学习地址: github/datawhalechina/team-learning-nlp/GNN/本次学习包括两个部分,构造数据完全存于内存的数据集类以及节点和边的预测任务实现。目录数据完全存于内存的数据集类PyG使用数据的一般过程InMemoryDataset基类节点预测与边预测任务实践节点预测代码结构边预测数据完全存于内存的数据集类PyG使用数据的一般过程从网络上下载数据原始文件;对数据

2021-06-27 23:41:55 160 2

原创 DW_图深度学习_Task_3

DW_图深度学习_Task_3学习内容:消息传递范式学习地址: github/datawhalechina/team-learning-nlp/GNN/

2021-06-23 23:48:36 344

原创 DW_图深度学习_Task_2

DW_图深度学习_Task_2学习内容:消息传递范式学习地址: github/datawhalechina/team-learning-nlp/GNN/本节的内容主要是了解和学习图神经网络生成节点表征的消息传递范式,学习内容以MessagePassing的实践为主。在这里,我们的内容更多的是倾向于消息传递范式本身的原理介绍。 定义MPNN的消息传递和读出GNN设计原理后续学习方向定义GNN是一个邻居聚合策略,一个节点的表示向量,由它的邻居节点通过循环的聚合和转移表示向量计算得来。即消息传递图神经

2021-06-19 23:12:41 154 1

原创 DW_图深度学习_Task_1

DW_图深度学习_Task_1学习内容:简单图论与环境配置及PyG库使用学习地址: github/datawhalechina/team-learning-nlp/GNN/学习笔记简单图论内容框架勘误环境配置及PyG库使用环境配置检查显卡驱动安装正确版本的pytorch和cudatoolkitData类——PyG中图的表示及其使用Data类的创建数据转换Dataset类——PyG中图数据集的表示及其使用生成Planetoid数据集类并分析数据集的使用简单图论内容框架勘误笔误存疑:

2021-06-15 16:36:46 131

原创 Ensemble Learning Task 15

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 15 的主要学习内容是蒸汽量预测案例分析目录背景介绍数据信息评价指标数据字典数据分布核密度估计相关性矩阵归一化特征工程模型搭建与集成背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率

2021-05-23 23:37:36 116

原创 Ensemble Learning Task 14

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 14 的主要学习内容是 幸福感预测案例分析

2021-05-18 22:35:23 93

原创 Ensemble Learning Task 13

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 12 的主要学习内容是 Stacking集成学习算法Stacking集成学习算法算法步骤优缺点算法步骤相较于blending算法,stacking优缺点...

2021-05-13 20:55:19 86

原创 Ensemble Learning Task 12

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 12 的主要学习内容是 Blending集成学习算法Blending集成学习算法算法步骤优缺点算法步骤优缺点

2021-05-11 22:52:41 83

原创 Ensemble Learning Task 11

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 10 的主要学习内容是 XGBoost 和LightGBM 算法XGBoost 和LightGBM 算法XGBoostLightGBMXGBoost基于GBDT算法框架,陈天奇开发了对于GBDT框架进行高效实现的XGBoost算法。具体优势体现在以下几点:在XGBoost中,算法的目标函数包括了样本的损

2021-04-26 21:43:00 94

原创 Ensemble Learning Task 10

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 10 的主要学习内容是 前向分布算法与梯度提升决策树前向分布算法与梯度提升决策树1. 前向分布算法1.1 加法模型1.2 前向分布算法2梯度提升决策树(GBDT)2.1 基于残差学习的提升树算法2.2 梯度提升决策树算法(GBDT)1. 前向分布算法1.1 加法模型加法模型的基本思想是将不同的模型线性相加

2021-04-23 23:48:09 90

原创 Ensemble Learning Task 9

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 9 的主要学习内容是 Boosting的思路与Adaboost算法Boosting的思路与Adaboost算法Boosting与Adaboost的关系Boosting思路Adaboost算法Boosting与Adaboost的关系Boosting是集成学习的一种思想,是通过对弱学习器的组合来达到强学习器效

2021-04-20 19:09:44 99

原创 Ensemble Learning Task 8

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 8 的主要学习内容是 Bagging的原理与案例分析BaggingBagging与投票法的区别原理算法应用案例——随机森林Bagging与投票法的区别与投票法仅仅集成各个模型的预测结果不同,bagging会采用一定的策略来影响基模型的训练,即通过不同的采样增加模型的差异性原理Bagging 核心在于自

2021-04-17 22:24:14 78

原创 Ensemble Learning Task 7

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 6 的主要学习内容是 投票法与bagging投票法投票法主要思想优化条件局限性Bagging与投票法的区别原理算法应用案例——随机森林投票法主要思想投票法的主要思想是:少数服从多数,这种集成学习思想在回归与分类问题上都可以使用。其分类大致如下:优化条件为了使投票法产生较好的结果,需要满足一定的条件:

2021-04-14 15:19:29 93

原创 Ensemble Learning Task 6

Ensemble Learning Task 6学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 6 的主要学习内容是 评估模型的性能并调参这一章内容很少,主要包括以下几个部分:用管道简化工作流使用k折交叉验证评估模型性能使用学习和验证曲线调试算法通过网格搜索进行超参数调优比较不同的性能评估指标pipeline能够将一系列操作封装成一个工作流

2021-03-29 22:35:53 81

原创 HeartbeatClassification Task 5

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 5 学习内容:模型融合第五部分,模型融合。在结束了以上四个目标之后,我们进入最后的模型融合部分。基于不同的方向,我们有不同的融合策略:结果层面的融合通过对结果得分进行加权融合、log、exp等不同的操作,我们可以对模型进行结果层面的融合。有一个很重要的条件是模型结果的得分要比较近似

2021-03-28 23:41:36 87

原创 Ensemble Learning Task 5

Ensemble Learning Task 5学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 5 的主要学习内容是 使用sklearn构建完整的分类项目具体内容包括了基础的模型构建步骤:数据准备选择度量模型性能的指标选择具体的模型并进行训练我们使用了sklearn内置的iris数据作为本项目的数据集,ROC曲线作为最终评价指标。模型的选择包

2021-03-26 16:09:03 77

原创 HeartbeatClassification Task 4

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 4 学习内容:模型调参本模块主要学习内容包含以下几个部分:逻辑回归模型树模型集成模型模型对比与性能评估模型调参模型方面,主要介绍了逻辑回归与决策树模型的优缺点,这里不再赘述。集成学习部分从样本选择样例权重预测函数以及并行计算四个方面介绍了Baggin与Boosting的区别。模型对

2021-03-25 20:48:28 94

原创 Ensemble Learning Task 4

Ensemble Learning Task 4学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 4 的主要学习内容是 模型超参调优具体包含了网格搜索与随机搜索两种调参方法。网格搜索网格搜索通过对所有超参进行排列组合,尝试所有的超参可能性。这种调参方法能够得到更优的结果,但同时也带来了巨大的计算消耗。因此比较适合在小数量集上使用。随机搜索随机搜索相

2021-03-24 19:04:47 79

原创 Ensemble Learning Task 3

Ensemble Learning Task 3学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 3 的主要学习内容是 掌握偏差与方差理论这一部分内容主要是优化基础模型,分为以下几个部分:训练均方误差与测试均方误差偏差方差的权衡特征提取压缩估计(正则化)降维第一部分主要是通过对训练与测试的均方误差进行比较,从评价指标的角度对过拟合现象进行深入

2021-03-22 23:56:23 87

原创 HeartbeatClassification Task3

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 3 学习内容:特征工程基于上一节对数据的EDA过程,这一节我们对数据进行特征工程操作。本次数据的缺失和异常是无需处理的,更为重要的是特征的抽取和选择。首先,我们将train和test数据进行拼接,用以同时进行特征抽取处理。在一些数据极为稀疏的场景,如果不对两部分数据同时进行处理,极为可能会得到

2021-03-22 18:07:02 82

原创 HeartbeatClassification Task2

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 2 学习内容:EDATask1 赛题理解及baseline学习 2天

2021-03-19 17:08:31 66

原创 Ensemble Learning Task 2

Ensemble Learning Task 2学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 2 的主要学习内容是 使用sklearn构建完整的回归项目收集数据集并选择合适的特征选择度量模型性能的指标选择具体的模型并进行训练一般来说,一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性

2021-03-18 18:06:43 71

原创 HeartbeatClassification Task 1

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 1 学习内容:Task1 赛题理解及baseline学习 2天理解赛题数据和目标,清楚评分体系。 完成赛题报名和数据下载,理解赛题的解题思路。 学习baseline方案,并成功运行提交结果。...

2021-03-16 22:14:08 82

原创 Ensemble Learning Task 1

Ensemble Learning Task 1 Day 1学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 1 的主要学习内容是机器学习问题三大基础方向。回归分类无监督不是很清楚为什么这里要这么分,通常如果按照数据集特征进行问题划分的话,会有监督、无监督、半监督等多个分类。同时,分类问题在一定程度上可以看做是回归问题在特定阈值下的特殊呈现方式。

2021-03-15 22:28:21 80

原创 异常检测_第五部分_高维异常

本章内容为高维异常检测。在实际场景中,经常会遇到几十上百维的数据。以工业生产数据为例,由于涉及到生产制造环节的流程与设备数以百计。同时,3C产品本身又有着数目众多的数据维度产出。这样实际场景中的高维数据中,维度爆炸和数据稀疏数据不平衡问题是致命性的。高维异常检测算法在实际场景中有着极为重要的应用需求和意义。文章目录1、引言2、Feature Bagging3、Isolation Forests4、总结1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长

2021-01-25 00:09:04 107

原创 异常检测_第四部分_基于相似度的方法

异常检测——基于相似度的方法本章主要涉及基于相似度的异常检测算法,包含基于距离与基于密度的两种度量。基于相似度的异常检测算法通常包括:KNN异常点的K近邻距离通常更大LOF, LOCI, LoOP, CLOF异常点所在空间的数据点少,密度低大部分异常检测算法都可以被认为是一种估计相似度,无论是通过密度、距离、夹角或是划分超平面。通过聚类也可以被理解为一种相似度度量。文章目录异常检测——基于相似度的方法1、概述2、基于距离的度量2.1 基于单元的方法2.2 基于索引的方法3

2021-01-21 20:16:30 185

原创 异常检测_第三部分_线性模型

线性回归  在线性回归中,我们假设不同维度的变量具有一定的相关性,并可以通过一个相关系数矩阵进行衡量。因此对于特定的观测值,可以通过线性方程组来建模。在实际应用中,观测值的数量往往远大于数据的维度,导致线性方程组是一个超定方程,不能直接求解。因此需要通过优化的方法,最小化模型预测值与真实数据点的误差。  线性回归是统计学中一个重要的应用,这个重要的应用往往是指通过一系列自变量去预测一个特殊因变量的值。在这种情况下,异常值是根据其他自变量对因变量的影响来定义的,而自变量之间相互关系中的异常则不那么重要。这

2021-01-18 22:53:40 151

原创 异常检测_第二部分_基于统计学的方法

基于统计学的异常检测方法最早是在Andrew的课程里接触到的。案例为飞机引擎制造场景的异常检测问题。基于高端制造业优质的数据质量和完备的标准体系,该场景可以通过生产设备简简单单的两个维度数据,基于高斯分布统计模型,达到接近完美的结果。以下为基于统计学的方法介绍=================================异常检测——基于统计学的方法主要内容包括:高斯分布箱线图文章目录异常检测——基于统计学的方法1、概述2、参数方法3、非参数方法4、HBOS5、总结1、概述统计学方

2021-01-15 23:31:14 171

原创 异常检测_第一部分

1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。异常检测: 数据不平衡下的分类问题1.1 异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信

2021-01-12 22:05:09 185

原创 DataWhale_天池_零基础入门金融风控_贷款违约预测_Task4_建模调参

队伍: NULL阿里天池比赛地址:零基础入门金融风控-贷款违约预测DataWhale组队学习地址:九月组队学习一、赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。为了更好的引导大家入

2020-09-24 22:33:20 520

原创 DataWhale_天池_零基础入门金融风控_贷款违约预测_Task3_特征工程

队伍: NULL阿里天池比赛地址:零基础入门金融风控-贷款违约预测DataWhale组队学习地址:九月组队学习一、赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。为了更好的引导大家入

2020-09-21 22:44:24 437

原创 DataWhale_天池_零基础入门金融风控_贷款违约预测_Task2_数据分析

队伍: NULL阿里天池比赛地址:零基础入门金融风控-贷款违约预测DataWhale组队学习地址:九月组队学习一、赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。为了更好的引导大家入

2020-09-18 19:17:38 756

原创 DataWhale_天池_零基础入门金融风控_贷款违约预测_Task1_赛题理解

队伍: NULL阿里天池比赛地址:零基础入门金融风控-贷款违约预测DataWhale组队学习地址:九月组队学习一、赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。为了更好的引导大家入

2020-09-15 13:21:21 609

原创 百度飞桨(PaddlePaddle)从安装到深度学习实践 踩坑记录

@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增

2020-08-19 15:32:49 3748

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除