DataVVhale-CSDN博客

原创 DW_图深度学习_Task_7

DW_图深度学习_Task_7学习内容：超大规模数据集类的创建及图预测任务实践学习地址： github/datawhalechina/team-learning-nlp/GNN/在之前的内容里，我们通过学习Cluster-GCN方法了解了超大图上的节点表征学习，在这一部分我们学习如何创建按需获取的超大规模数据集类，并进行图预测任务的实践目录超大规模数据集类的创建Dataset基类跳过下载或处理过程无需定义Dataset类图样本封装成批（BATCHING）与DataLoader类合并小图组成大图三级目

2021-07-10 00:01:35 155

原创 DW_图深度学习_Task_6

DW_图深度学习_Task_6学习内容：基于图神经网络的图表征学习方法学习地址： github/datawhalechina/team-learning-nlp/GNN/目录基于图同构网络（GIN）的图表征网络的实现图表征模块（GINGraphRepr Module）节点嵌入模块（GINNodeEmbedding Module）\图同构卷积层（GINConv）AtomEncoder 与 BondEncoder理论内容图同构性测试图相似性评估基于图同构网络（GIN）的图表征网络的实现本节内容主要是介

2021-07-05 22:46:49 539 2

原创 DW_图深度学习_Task_5

DW_图深度学习_Task_5学习内容：超大图上的节点表征学习学习地址： github/datawhalechina/team-learning-nlp/GNN/目录Cluster-GCN方法常规方法的瓶颈Cluster-GCN实践Cluster-GCN方法常规方法的瓶颈Cluster-GCN实践...

2021-07-01 22:22:45 156

原创 DW_图深度学习_Task_4

DW_图深度学习_Task_4学习内容：数据完全存于内存的数据集类节点预测与边预测任务实践学习地址： github/datawhalechina/team-learning-nlp/GNN/本次学习包括两个部分，构造数据完全存于内存的数据集类以及节点和边的预测任务实现。目录数据完全存于内存的数据集类PyG使用数据的一般过程InMemoryDataset基类节点预测与边预测任务实践节点预测代码结构边预测数据完全存于内存的数据集类PyG使用数据的一般过程从网络上下载数据原始文件；对数据

2021-06-27 23:41:55 161 2

原创 DW_图深度学习_Task_3

DW_图深度学习_Task_3学习内容：消息传递范式学习地址： github/datawhalechina/team-learning-nlp/GNN/

2021-06-23 23:48:36 345

原创 DW_图深度学习_Task_2

DW_图深度学习_Task_2学习内容：消息传递范式学习地址： github/datawhalechina/team-learning-nlp/GNN/本节的内容主要是了解和学习图神经网络生成节点表征的消息传递范式，学习内容以MessagePassing的实践为主。在这里，我们的内容更多的是倾向于消息传递范式本身的原理介绍。定义MPNN的消息传递和读出GNN设计原理后续学习方向定义GNN是一个邻居聚合策略，一个节点的表示向量，由它的邻居节点通过循环的聚合和转移表示向量计算得来。即消息传递图神经

2021-06-19 23:12:41 155 1

原创 DW_图深度学习_Task_1

DW_图深度学习_Task_1学习内容：简单图论与环境配置及PyG库使用学习地址： github/datawhalechina/team-learning-nlp/GNN/学习笔记简单图论内容框架勘误环境配置及PyG库使用环境配置检查显卡驱动安装正确版本的pytorch和cudatoolkitData类——PyG中图的表示及其使用Data类的创建数据转换Dataset类——PyG中图数据集的表示及其使用生成Planetoid数据集类并分析数据集的使用简单图论内容框架勘误笔误存疑：

2021-06-15 16:36:46 132

原创 Ensemble Learning Task 15

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 15 的主要学习内容是蒸汽量预测案例分析目录背景介绍数据信息评价指标数据字典数据分布核密度估计相关性矩阵归一化特征工程模型搭建与集成背景介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率

2021-05-23 23:37:36 120

原创 Ensemble Learning Task 14

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 14 的主要学习内容是幸福感预测案例分析

2021-05-18 22:35:23 95

原创 Ensemble Learning Task 13

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 12 的主要学习内容是 Stacking集成学习算法Stacking集成学习算法算法步骤优缺点算法步骤相较于blending算法，stacking优缺点...

2021-05-13 20:55:19 87

原创 Ensemble Learning Task 12

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 12 的主要学习内容是 Blending集成学习算法Blending集成学习算法算法步骤优缺点算法步骤优缺点

2021-05-11 22:52:41 85

原创 Ensemble Learning Task 11

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 10 的主要学习内容是 XGBoost 和LightGBM 算法XGBoost 和LightGBM 算法XGBoostLightGBMXGBoost基于GBDT算法框架，陈天奇开发了对于GBDT框架进行高效实现的XGBoost算法。具体优势体现在以下几点：在XGBoost中，算法的目标函数包括了样本的损

2021-04-26 21:43:00 98

原创 Ensemble Learning Task 10

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 10 的主要学习内容是前向分布算法与梯度提升决策树前向分布算法与梯度提升决策树1. 前向分布算法1.1 加法模型1.2 前向分布算法2梯度提升决策树（GBDT）2.1 基于残差学习的提升树算法2.2 梯度提升决策树算法(GBDT)1. 前向分布算法1.1 加法模型加法模型的基本思想是将不同的模型线性相加

2021-04-23 23:48:09 92

原创 Ensemble Learning Task 9

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 9 的主要学习内容是 Boosting的思路与Adaboost算法Boosting的思路与Adaboost算法Boosting与Adaboost的关系Boosting思路Adaboost算法Boosting与Adaboost的关系Boosting是集成学习的一种思想，是通过对弱学习器的组合来达到强学习器效

2021-04-20 19:09:44 102

原创 Ensemble Learning Task 8

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 8 的主要学习内容是 Bagging的原理与案例分析BaggingBagging与投票法的区别原理算法应用案例——随机森林Bagging与投票法的区别与投票法仅仅集成各个模型的预测结果不同，bagging会采用一定的策略来影响基模型的训练，即通过不同的采样增加模型的差异性原理Bagging 核心在于自

2021-04-17 22:24:14 81

原创 Ensemble Learning Task 7

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 6 的主要学习内容是投票法与bagging投票法投票法主要思想优化条件局限性Bagging与投票法的区别原理算法应用案例——随机森林投票法主要思想投票法的主要思想是：少数服从多数，这种集成学习思想在回归与分类问题上都可以使用。其分类大致如下：优化条件为了使投票法产生较好的结果，需要满足一定的条件：

2021-04-14 15:19:29 95

原创 Ensemble Learning Task 6

Ensemble Learning Task 6学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 6 的主要学习内容是评估模型的性能并调参这一章内容很少，主要包括以下几个部分：用管道简化工作流使用k折交叉验证评估模型性能使用学习和验证曲线调试算法通过网格搜索进行超参数调优比较不同的性能评估指标pipeline能够将一系列操作封装成一个工作流

2021-03-29 22:35:53 85

原创 HeartbeatClassification Task 5

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 5 学习内容：模型融合第五部分，模型融合。在结束了以上四个目标之后，我们进入最后的模型融合部分。基于不同的方向，我们有不同的融合策略：结果层面的融合通过对结果得分进行加权融合、log、exp等不同的操作，我们可以对模型进行结果层面的融合。有一个很重要的条件是模型结果的得分要比较近似

2021-03-28 23:41:36 87

原创 Ensemble Learning Task 5

Ensemble Learning Task 5学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 5 的主要学习内容是使用sklearn构建完整的分类项目具体内容包括了基础的模型构建步骤：数据准备选择度量模型性能的指标选择具体的模型并进行训练我们使用了sklearn内置的iris数据作为本项目的数据集，ROC曲线作为最终评价指标。模型的选择包

2021-03-26 16:09:03 78

原创 HeartbeatClassification Task 4

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 4 学习内容：模型调参本模块主要学习内容包含以下几个部分：逻辑回归模型树模型集成模型模型对比与性能评估模型调参模型方面，主要介绍了逻辑回归与决策树模型的优缺点，这里不再赘述。集成学习部分从样本选择样例权重预测函数以及并行计算四个方面介绍了Baggin与Boosting的区别。模型对

2021-03-25 20:48:28 95

原创 Ensemble Learning Task 4

Ensemble Learning Task 4学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 4 的主要学习内容是模型超参调优具体包含了网格搜索与随机搜索两种调参方法。网格搜索网格搜索通过对所有超参进行排列组合，尝试所有的超参可能性。这种调参方法能够得到更优的结果，但同时也带来了巨大的计算消耗。因此比较适合在小数量集上使用。随机搜索随机搜索相

2021-03-24 19:04:47 83

原创 Ensemble Learning Task 3

Ensemble Learning Task 3学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 3 的主要学习内容是掌握偏差与方差理论这一部分内容主要是优化基础模型，分为以下几个部分：训练均方误差与测试均方误差偏差方差的权衡特征提取压缩估计(正则化)降维第一部分主要是通过对训练与测试的均方误差进行比较，从评价指标的角度对过拟合现象进行深入

2021-03-22 23:56:23 90

原创 HeartbeatClassification Task3

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 3 学习内容：特征工程基于上一节对数据的EDA过程，这一节我们对数据进行特征工程操作。本次数据的缺失和异常是无需处理的，更为重要的是特征的抽取和选择。首先，我们将train和test数据进行拼接，用以同时进行特征抽取处理。在一些数据极为稀疏的场景，如果不对两部分数据同时进行处理，极为可能会得到

2021-03-22 18:07:02 82

原创 HeartbeatClassification Task2

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 2 学习内容：EDATask1 赛题理解及baseline学习 2天

2021-03-19 17:08:31 68

原创 Ensemble Learning Task 2

Ensemble Learning Task 2学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 2 的主要学习内容是使用sklearn构建完整的回归项目收集数据集并选择合适的特征选择度量模型性能的指标选择具体的模型并进行训练一般来说，一个完整的机器学习项目分为以下步骤：明确项目任务：回归/分类收集数据集并选择合适的特征。选择度量模型性

2021-03-18 18:06:43 76

原创 HeartbeatClassification Task 1

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassificationTask 1 学习内容：Task1 赛题理解及baseline学习 2天理解赛题数据和目标，清楚评分体系。完成赛题报名和数据下载，理解赛题的解题思路。学习baseline方案，并成功运行提交结果。...

2021-03-16 22:14:08 82

原创 Ensemble Learning Task 1

Ensemble Learning Task 1 Day 1学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningTask 1 的主要学习内容是机器学习问题三大基础方向。回归分类无监督不是很清楚为什么这里要这么分，通常如果按照数据集特征进行问题划分的话，会有监督、无监督、半监督等多个分类。同时，分类问题在一定程度上可以看做是回归问题在特定阈值下的特殊呈现方式。

2021-03-15 22:28:21 83

原创异常检测_第五部分_高维异常

本章内容为高维异常检测。在实际场景中，经常会遇到几十上百维的数据。以工业生产数据为例，由于涉及到生产制造环节的流程与设备数以百计。同时，3C产品本身又有着数目众多的数据维度产出。这样实际场景中的高维数据中，维度爆炸和数据稀疏数据不平衡问题是致命性的。高维异常检测算法在实际场景中有着极为重要的应用需求和意义。文章目录1、引言2、Feature Bagging3、Isolation Forests4、总结1、引言在实际场景中，很多数据集都是多维度的。随着维度的增加，数据空间的大小（体积）会以指数级别增长

2021-01-25 00:09:04 107

baidu_36184635的博客