ritatype-CSDN博客

原创图神经网络学习总结

图神经网络学习总结通过在datawhale的学习，我充分了解到了图神经网络的相关知识，最开始从图论入门，了解基本的图结构，和连接边的属性这些定义。组队学习这段时间主要学习的内容主要还是以官方文档的一些函数以及datawhale开源的实例为主，包括GNN相关的一些图神经网络函数之间的关系、底层网络框架的搭建等等。在掌握了网络搭建之后，再进一步深入到节点预测的实践中。总体而言，每个核心课程的学习时间长度安排的很好，感谢datawhale开源社区“图神经网络”组队学习的贡献者们~...

2021-07-10 21:21:53 189

原创图预测任务实践

图预测任务实践按需获取的数据集类的创建相关开源内容，详见datawhale_gitee按之前学习的基于GIN的图表示学习神经网络，和定义的数据集实现分子图的量子性质预测任务。1.预测任务import osimport torchimport argparsefrom tqdm import tqdmfrom ogb.lsc import PCQM4MEvaluatorfrom torch_geometric.data import DataLoaderimport torch.opt

2021-07-09 23:26:02 361

原创基于图神经网络的图表征学习方法

基于图神经网络的图表征学习方法开源学习地址：datawhale-基于图神经网络的图表征学习方法1.基于图同构网络(GIN)的图表征模块（GINGraphRepr Module）import torchfrom torch import nnfrom torch_geometric.nn.glob import global_add_pool, global_mean_pool, global_max_pool, GlobalAttention, Set2Setfrom gin_node im

2021-07-06 00:11:05 342 2

原创 # 超大图上的节点表征学习

超大图上的节点表征学习开源学习地址：datawhale1.Cluster-GCN实践Cluster-GCN的提出是为了在最大限度地提高表征利用率的同时，使模型有较好的收敛结果。具体代码如下：import torchimport torch.nn.functional as Ffrom torch.nn import ModuleListfrom tqdm import tqdmfrom torch_geometric.datasets import Reddit, Reddit2fro

2021-07-01 23:38:19 229

原创 # GNN学习笔记数据完整存储于内存的数据集类与预测任务实践

GNN学习笔记数据完整存储于内存的数据集类与预测任务实践完整开源学习地址：datawhale本节内容包括两部分，主要为1、数据完整存于内存的数据集类和2、节点预测与边预测任务实践。1.数据完整存于内存的数据集类以InMemoryDataset数据集类实例为例，构造PlantoidPubMed数据集类。代码如下：import os.path as ospimport torchfrom torch_geometric.data import (InMemoryDataset, downl

2021-06-27 20:56:28 189

原创 # 基于图神经网络的节点表征学习

基于图神经网络的节点表征学习开源学习内容来自：datawhale本节主要结论：在节点表征的学习中，MLP神经网络只考虑了节点自身属性，忽略了节点之间的连接关系，它的结果是最差的；而GCN图神经网络与GAT图神经网络，同时考虑了节点自身信息与周围邻接节点的信息，因此它们的结果都优于MLP神经网络。即，对周围邻接节点的信息的考虑，是图神经网络优于普通深度神经网络的原因。1.导入PyG中的Cora数据库from torch_geometric.datasets import Planetoidfro

2021-06-24 00:57:40 300

原创 GNN学习笔记02 消息传递图神经网络

GNN学习笔记02 消息传递图神经网络关于MessagePassing基类的具体分析参见开源学习地址：datawhale1.MessagePassing基类的运行流程谈到MessagePassing基类的运行流程，必须先简单介绍一下消息传递范式。简单来说，消息传递范式就是“消息”传递的过程，只是在GNN中，它传递的是邻接节点聚合信息，首先从离中心节点最远的节点开始传递，逐层更新节点信息，最后逼近中心节点，以中心节点的邻接节点聚合信息和中心节点的信息更新中心节点A的信息。最终所有节点的信息都更新了一

2021-06-20 01:35:25 694

原创 GNN 01简单图论和环境配置与PyG库

GNN 01简单图论和环境配置与PyG库关于图论等的先导知识详见开源学习地址：datawhale1.mac下PyG库的安装windows的安装也可参考上方先导知识的链接。1.1先检查是否安装pytorch已安装的可以跳过这一步，没有安装的话参考以下：#创建python=3.8的conda虚拟环境conda create -n env_gnn python=3.8#用conda安装pytorch1.6.0的cpu版本conda install pytorch==1.6.0 torchvi

2021-06-15 01:17:57 395 1

原创集成学习下蒸汽量预测

#集成学习下蒸汽量预测开源学习指路：datawhale1.赛题思路简单总结一下做题的思路：EDA: 融合训练集和测试集，根据kdeplot看一下连续数据（训练集和测试集）的分布情况，然后筛选出其中分布不均的特征数据，并在训练集和测试集中去除这些特征数据查看特征之间的相关性（一般用spearman相关系数）设定一个相关系数的阈值，去除相关系数低于这个阈值的特征对已经完成以上清洗的特征数据进行归一化处理特征工程：1.box-cox变换，使特征数据满足正态分布（一般模型假设都是假设数据

2021-05-20 21:39:43 165

原创集成学习下 03幸福感预测实战

集成学习下 03幸福感预测实战项目和代码开源地址：datawhale1. 赛题思路首先分析变量维数和特征，赛题变量维数139维，均为离散变量/特征。对训练集中数据进行清洗，根据不同变量对应index的值，进行异常值的去除、补充缺失值、修改错误值的操作。如下所示：#填充缺失值共25列去掉4列填充21列#以下的列都是缺省的，视情况填补data['work_status'] = data['work_status'].fillna(9)#修改为其他data['work_yr'] = d

2021-05-16 12:48:34 246

原创集成学习下 02 stacking集成学习算法

集成学习下 02 stacking集成学习算法开源学习地址：datawhale1.

2021-05-12 10:17:47 259

原创集成学习下 01 blending集成学习算法

集成学习下 01 blending集成学习算法导读：开源学习地址datawhale1.何为blending?blending类似于对多个模型的效果进行融合，具体如下：1）将数据划分为训练集和测试集，训练集再划分为训练集train_set和验证集val_set2) 建立第一层的多个模型，通过train_set训练第一层的模型，预测val_set和测试集，得到val_predict和test_predict13)创建第二层的模型，根据val_predict训练第二层的模型4）根据训练好的第

2021-05-10 19:35:03 160

原创 XGBoost算法分析与案例调参实例

XGBoost算法分析与案例调参实例开源学习地址：在这里插入代码片datawhale1.XGBoost算法XGBoost是一种优化的分布式梯度提升库，在Gradient Boosting框架下实现。XGBoost利用了核外计算并能使数据科学家在一个主机上处理数亿的样本数据，最终将这些技术进行结合，做一个端到端的系统以最少的集群系统来扩展到更大的数据集上。XGBoost的子模型为决策树，通过Gradient Tree Boosting来实现多棵CART树的学习。具体模型公式推导参考开源学习地址。

2021-04-26 21:30:19 309

原创集成学习中笔记04 前向分布算法与梯度提升决策树

集成学习中笔记04 前向分步算法与梯度提升决策树开源学习地址：datawhale1.前向分步算法前向分步算法是集成学习中一个非常重要的框架，它的出现解决了Adaboost加法模型的凸优化问题。简单来说，前向分步算法就是从前向后，每一步仅优化一个基函数及其系数，逐步逼近目标函数。Adaboost算法是前向分步算法的特例2.梯度提升决策树(GBDT)2.1 基于残差学习的提升树算法从字面意思上来说，基于残差学习的提升树算法就是在回归过程中，每次对残差进行拟合，学习一棵回归树，解决使用基函数

2021-04-23 17:18:25 188

原创集成学习中笔记03 boosting思路和adaboost算法

集成学习中笔记03 boosting思路和adaboost算法boosting算法与bagging算法不同，主要在通过不断的训练，减小预测偏差。具体开源学习内容可参考：datawhale1.boosting方法的基本思路boosting算法简单来说，是对一系列弱分类器的结果进行组合，构成一个强分类器，以减少模型预测的偏差。大多数的boosting方法都是通过改变训练数据集的概率分布（训练数据不同样本的权值），针对不同概率分布的数据调用弱分类算法学习一系列的弱分类器。与bagging算法不同的是，

2021-04-19 16:02:23 170

原创集成学习中笔记 02 bagging的原理和案例分析

集成学习中笔记 02 bagging的原理和案例分析开源学习地址：datawhale1.bagging基本原理bagging，顾名思义，对众多基模型进行打包处理。bagging中最典型的便是随机森林，森林由众多树组成。这里的树便是bagging中的基模型（bagging最典型的基模型就是树结构）。那么森林里的每棵树又是怎么生成的呢？参考上面这幅图，每棵树训练的数据来源于对初始数据集的自助采样（boostrap)。这种采样方式是有放回的，也就意味着多次采样之后形成的数据集彼此之间具有一定的差异

2021-04-16 11:55:13 397

原创集成学习中学习笔记 01投票法的思路、原理分析和案例

集成学习中学习笔记 01投票法的思路、原理分析和案例投票法，顾名思义，指的是少数服从多数的结果当被应用于机器学习，投票法的思路可以显著降低误差具体开源学习内容可参考：datawhale1.投票法概述1.1 集成学习中的投票法集成学习中的投票法指的是通过选取多个模型进行集成，并通过处理多个模型的预测结果，采取平均（回归问题），或取出现概率最大（次数最多）的结果（分类问题），来降低模型方差，提高模型的鲁棒性。在理想情况下，投票法的预测效果优于任何一个基模型的预测效果投票法在回归模型与分类模

2021-04-14 16:03:20 347 1

原创集成学习笔记06 图像数据集实战

集成学习笔记 06 图像数据集实战开源学习地址：datawhale为了巩固之前的知识点，今天主要结合sklearn的乳腺癌数据集，进行一次实战1.认识数据集from sklearn.datasets import load_breast_cancercancers = load_breast_cancer()X = cancers.data #获取特征值Y = cancers.target #获取标签print(X.shape) #查看特征形状pri

2021-03-28 16:49:16 154

原创深度推荐模型笔记05 DIN模型

集成学习笔记05 基本的分类模型本篇预计阅读时间2分钟，开源学习内容来自：datawhale1. DIN模型的来源和发展2.DIN模型的优缺点3. 代码实例

2021-03-27 18:54:18 578

原创集成学习笔记05 基本的优化模型

集成学习笔记05 基本的优化模型开源学习地址：datawhale关于逻辑回归、基于概率的分类模型都可以在开源地址里找到详细的学习介绍，这里不再赘述。这篇主要总结一下非线性支持向量机的工作原理，不了解支持向量机的可以点这个链接：支持向量机稍作了解。常用的支持向量机都是处理线性数据的，对数据集做一个线性映射，最后相当于一个线性回归问题。但是现实生活中，很多数据都是非线性的。这个时候，便出现了针对这类数据的非线性支持向量机。1.非线性支持向量机定义：通过将低维非线性数据映射到高维，实现SVM最优

2021-03-27 18:26:20 136

原创集成学习笔记04 回归模型的评估及超参数调优

集成学习笔记04 回归模型的评估及超参数调优

2021-03-22 22:02:52 369

原创深度模型笔记04 NFM模型与应用

深度推荐模型笔记

2021-03-22 13:48:21 344

原创深度模型笔记03 DeepFM原理与应用

深度模型笔记03 DeepFM原理与应用学习链接参考：datawhale引言：DNN局限当我们使用DNN网络解决推荐问题的时候存在网络参数过于庞大的问题，这是因为在进行特征处理的时候我们需要使用one-hot编码来处理离散特征，这会导致输入的维度猛增...

2021-03-20 08:41:54 348

原创集成学习学习笔记03 优化基础模型

学习地址参考：

2021-03-19 22:11:31 107

原创深度模型笔记02 Wide&Deep

深度模型笔记02 Wide&Deep更多资料参考：datawhale1. Wide&Deep一句话概括W&D，W&D由浅层（或单层）的wide部分神经网络和深层的deep部分多层神经网络组成，输出层采用softmax或logistics regression综合wide和deep部分的输出。特点：1.wide部分有利于增强模型的“记忆能力”，deep部分有利于增强模型的“泛化能力”。2.wide侧记住的是历史数据中常见、高频的模式，它没有发现新模式的能力，一

2021-03-18 16:54:22 231

原创集成学习笔记02 使用sklearn构建基本的机器学习模型

集成学习笔记02 使用sklearn构建基本的机器学习模型学习参考datawhale1.线性回归模型sklearn内有关于线性回归的函数LinearRegression()，简单的线性回归代码如下：import pandas as pdfrom sklearn import datasetsboston = datasets.load_boston() # 返回一个类似于字典的类X = boston.datay = boston.targetfeatures = boston.feat

2021-03-18 16:02:22 446

原创深度推荐学习笔记01 DeepCrossing

深度推荐学习笔记01 DeepCrossing1. Deepcrossing在推荐系统中的应用deepcrossing模型是在传统神经网络的基础上加入embedding、残差连接等思想发展而来，结构较为简单，于2016年由微软提出，完整地解决了特征工程、稀疏向量稠密化、多层神经网络进行优化目标拟合等一系列深度学习再推荐系统的应用问题。deepcrossing在推荐系统的典型应用场景为搜索引擎广告推荐：预测对某一广告，用户是否会点击（点击率预测/CTR预估)。在这种场景下，模型的输入一般有广告id

2021-03-15 20:52:15 131

原创集成学习笔记01 熟悉机器学习的三大主要任务

集成学习笔记01 熟悉机器学习的三大主要任务学习内容开源地址：datawhale机器学习主要能分为监督学习和无监督学习，详细分类参考下图（这是博主报考cft的笔记，稍作补充）本次学习主要介绍机器学习中有监督学习的回归和分类的集成学习的问题。1. 回归1.1 线性方程组回归问题形如矩阵AX=Y的表达式中，Y作为因变量向量，A作为自变量矩阵，求解X的过程即为回归问题。这里参考博主最近参加的一个比赛，用到最小二乘法求线性方程组KX=Y的最优解K。与AX=Y相似，但对于KX=Y而言，需要两边同时取

2021-03-15 20:01:21 195 1

原创 “AI Earth”人工智能创新挑战赛 baseline调试记录

“AI Earth”人工智能创新挑战赛 baseline调试记录2.21 简单mlp+soda数据训练baseline参考:team-learning-data-mining/WeatherOceanForecasts/Dockerfile参考：构建镜像并推送遇到的一些问题：1.Dockerfile中需要添加：##Install Requirements（requirements.txt包含python包的版本）## 这里使用清华镜像加速安装RUN pip --timeout=600

2021-02-25 17:45:54 343 1

原创 Docker提交代码及比赛上分

Docker提交代码及比赛上分1.Docker环境配置docker可将App连带环境一同打包直接部署到服务器上。如果是使用Mac或者windows系统使用docker的话，建议使用Vagrant，它是不需要使用iso镜像就可以创建虚拟机的，这样的好处是方便我们的使用以及删除。...

2021-02-20 12:34:01 213 1

原创基于人脸的常见表情识别01

基于人脸的常见表情识别01——深度学习基础知识1.神经网络1.1 感知机感知机（perceptron) 结果与MP模型类似，一般被视为最简单的人工神经网络，也作为二元线性分类器被广泛使用。通常情况下指单层的人工神经网络，以区别于多层感知机（Multilayer perceptron)。尽管感知机结构简单，但能够学习并解决复杂问题。f为激活函数，o为标量输出。理想的激活函数通常为阶跃函数或sigmoid函数，感知机的输出是输入向量x与权重向量w求得内积后，经激活函数f所得到的标量。单层感知器类似逻

2021-02-19 23:57:52 538

原创 Mysql学习笔记01 环境搭建

Mysql学习笔记01 环境搭建1. MySQL安装macOS系统在官网安装好MySQL后，需要在终端输入以下命令，登录到MySQL:PATH="$PATH":/usr/local/mysql/binexport PATH=$PATH:/usr/local/mysql/binsource ~/.bash_profilemysql -u root -p//这里输入设置的密码注：使用终端MySQL进行交互是非常便捷和高效的。但对不熟悉SQL查询的人来说，可选择查询界面更加友好的客户端工

2021-02-09 20:23:13 165

原创机器学习与量化投资学习笔记02 从技术分析到机器学习

机器学习与量化投资学习笔记02 从技术分析到机器学习1. 个股的CAPM Modelri(t)=betai∗rm(t)+alphai(t)r_i(t)=beta_i*r_m(t)+alpha_i(t)ri(t)=betai∗rm(t)+alphai(t)有效市场假说认为E(alpha(t))=0被动式管理：复制大盘指数，持有，认为alpha期望值为0主动式管理：选择个股，频繁交易2.投资组合的CAPM Modelrp(t)=betap∗rm(t)+alphap(t)r_p(t)=b

2021-02-06 18:50:27 195

原创机器学习与量化投资学习笔记01 算法交易

机器学习与量化投资学习笔记01 算法交易1 算法交易定义算法交易(algorithmic trading)是利用自动化平台，执行预先设置的一系列规则完成交易行为。优势历史数据评估执行高效无主观情绪输入可度量评价交易频率劣势：成本高，需要技巧2.流程大前提：基于某种平台提出假设建立模型回测验证执行交易3.交易策略的来源市场微观结构研究(for HFT mostly)从order book 判断股价涨跌基金结构套利(fund structure a

2021-02-06 18:00:17 720

原创异常检测笔记05高维异常

异常检测笔记05高维异常高维数据异常检测：feature bagging和孤立森林1. 集成集成是子空间思想中常用的方法之一，可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法和基于子空间方法有着天然的相似性，子空间与不同的点集相关，而集成方法使基检测器来探索不同维度的子集，将这些基学习器集合起来。2.Feature Bagging步骤：1.选择基检测器

2021-01-19 16:32:25 450

原创异常检测学习笔记04 基于相似度的方法

异常检测学习笔记04 基于相似度的方法异常检测——基于相似度的方法包括：1.基于距离的度量2.基于密度的度量主要思想是异常点的表示与正常点不同1. 基于距离的度量——适用各种数据域所谓基于距离的度量，即通过最近邻距离来定义异常值。其假设前提：异常点的 kkk 近邻距离要远大于正常点。计算：嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于 kkk 个数据点与当前点的距离在 DDD 之内，则将该点自动标记为非异常值。这样计算的时间

2021-01-17 18:16:14 373

原创异常检测学习笔记 03线性模型

异常检测学习笔记 03线性模型本节主要介绍异常检测的线性回归和主成分分析参考来源:Datawhale1.数据相关性真实数据集中不同维度的数据通常具有高度的相关性。统计学中用于分析数据相关性的方法有两种：线性回归和主成分分析。线性回归：通过其他变量预测单独的属性值主成分分析：用一些潜在变量来代表整个数据注：线性模型有两个重要的假设"近似线性相关假设，是使用两种模型进行异常检测的重要理论基础子空间假设：认为数据是镶嵌在低维子空间中的。线性方法的目的是找到合适的低维子空间使得异常点在其中

2021-01-17 17:50:14 235

原创知识图谱学习笔记05 Neo4j 图数据库查询

知识图谱学习笔记05 Neo4j 图数据库查询Neo4j在前面的笔记中已简单介绍过，这里主要介绍Cypher和基于知识图谱的问题系统主题类AnswerSearing框架及相关代码QASystemOnMedicalGraph1. CypherCypher是一个描述性的图形查询语言，允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询。Cypher目前还在发展，后续可持续学习~Cypher的焦点在于从图中如何找回（what to retrieve），而不是怎么去做哦，这使得在不对用户公布

2021-01-16 13:30:44 268

原创知识图谱学习笔记 04用户输入——知识库的查询语句

知识图谱学习笔记 04用户输入——知识库的查询语句1.问答系统定义：问答系统(Question Answering System, QA System)是用来回答人提出的自然语言问题的系统。主要有以下分类：按知识领域划分：封闭领域：回答特定领域的问题，系统发挥空间大，可以通过导入领域知识或将答案来源全部转化成结构性资料来有效提升系统的表现开放领域：难度大，需要回答不设限问题按实现方式划分：流水线实现(pipeline)：四大核心模块(自然语言理解NLU、对话状态跟踪器DST、对话策略

2021-01-15 22:40:35 363

原创异常检测学习笔记 02 下基于统计学的方法

异常检测——基于统计学的方法1.概述异常检测的统计学方法有两种，参数方法和非参数方法。两者的区别在于参数方法要求假定数据服从某个参数分布，而非参数方法并不需要假定先验统计模型，但非参数方法并不是说模型是完全无参的，只是可以灵活假设参数类型和个数。2.参数方法2.1 基于正态分布的一元异常点检测类似于箱型图的异常点（利用数据集的上下四分位数，中点等定义异常点。假定输入数据集为x(1),x(2),...,x(m){x^{(1)}, x^{(2)}, ..., x^{(m)}}x(1),x(2),..

2021-01-15 18:30:49 276

空空如也

空空如也