Etc_in_the_great-CSDN博客

原创组队学习-图神经网络（总结）

此次图神经网络实战的组队学习主要学习了以下内容：基本的图论知识、常规的图预测任务和PyG库的安装与使用；图神经网络的通用范式并实践了图神经网络的构建；以GCN和GAT为例，学习了基于图神经网络的节点表征学习的一般过程，实践了基于PyG的数据全部存于内存的数据集类的构造，实践了基于节点表征学习的图节点预测任务和边预测任务；学习实践了应对在超大图上进行节点表征学习面临的挑战学习了基于图神经网络的图表征学习的一般过程、实践了样本按需获取的数据集类的构造，并且实践了基于图表征学习的图预测任务。但是实

2021-07-10 09:23:36 214

原创组队学习-图神经网络（seventh）

超大规模数据集类的创建前面我们只接触了数据可全部储存于内存的数据集，这些数据集对应的数据集类在创建对象时就将所有的数据加载到内存。然而如果数据集规模超级大，我们很难有足够大的内存完全存下所有数据。所以需要一个按需加载样本到内存的数据集类。Dataset类在PyG中，我们通过继承torch_geometric.data.Dataset基类来自定义一个按需加载样本到内存的数据集类。继承torch_geometric.data.InMemoryDataset基类要实现的方法，继承此基类同样要实现，此外还需实

2021-07-06 10:22:21 193

原创组队学习-图神经网络（sixth）

这次学习的是基于图神经网络的图表征学习，通过对图同构网络（GIN）的图表征网络的实现、项目实践和理论分析来学习基于图神经网络的图表征学习方法。基于图同构网络的图表征学习主要包括以下过程：首先计算得到节点表征其次对图上各个节点的表征做图池化(Graph Pooling)，或称为图读出(Graph Readout)，得到图的表征(Graph Representation)。图表征模块(GINGraphReprModule)对图上每个节点做节点嵌入，得到节点表征，然后对节点表征做图池化得到图的表征，最

2021-07-05 15:20:57 255

原创组队学习-图神经网络（fifth）

本文主要分析Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Network论文中提出的新的图神经网络模型以及新的训练图神经网络的训练方法。一些经典模型如 GCN 采用了 full-batch 的 SGD 优化算法，要计算整个梯度则需要存储所有中间的 Embedding，因此，其是不可扩展的。此外，虽然每个 epoch 也只能更新一次参数。GraphSAGE 中提出 mini-batch

2021-07-01 17:46:52 407

原创组队学习-图神经网络（fourth）

本次任务我们构建一个数据完全存于内存的数据集类，并且执行节点预测和边预测任务。构建数据集使用数据的一般过程为：1.从网络上下载原始数据2.对数据原始文件做处理，为每一个图样本生成一个Data对象3.对每一个Data对象执行数据处理，使其转换成新的Data对象4.过滤Data对象5.保存Data对象到文件6.获取Data对象，在每一次获取Data对象时，都先对Data对象做数据变换我们可以通过继承InMemoryDataset类来定义一个数据可全部存储到内存的数据集类class InMem

2021-06-27 10:35:00 175

原创图神经网络-组队学习（third）

本次任务终于到了实战阶段，要根据节点的属性（类别型或数值型）、边的信息、边的属性（有的话）、已知的节点预测标签，对未知标签的节点做预测。我们通过比较MLP、GCN和GAT在Cora数据集上节点分类任务中的表现以及他们学习到的节点表征能力。一、Cora数据集介绍...

2021-06-23 09:51:50 481

原创组队学习-图神经网络（second）

一、图的可视化（networkx工具使用）首先先随便生成一个图，初步了解一下networkx的使用生成的图的效果如下图所示：下面举几个关于networkx包的几个简单的例子：（1）G = nx.cubical_graph()plt.subplot(121)nx.draw(G)plt.subplot(122)nx.draw(G, pos=nx.circular_layout(G), node_color='r', edge_color='b')plt.show()#nx.draw(G

2021-06-19 11:26:49 359

原创组队学习-图神经网络（first）

最近图神经网络比较火，所以想着了解一下图神经网络，看能不能将他应用到自己的研究方向上。一、知识基础图用节点表示实体，用边表示实体间的关系，大部分情况下节点含有信息，边可能含有信息。无向图的邻接矩阵是对称的。结点v的k跳远的邻接节点指的是到结点v要走k步的节点（一个节点的2跳远的邻接节点包含了自身）。walk(v_{1},v_{2})=(v_{1},e_{6},e_{5},e_{4},e_{1},v_{2})，这是一次“行走”，从v1出发经过边e6,e5,e4,e1，最终到达节点v2“路径”是

2021-06-15 17:20:50 265

原创深度推荐模型-DIN

一、动机Deep Interest Network(DIN)是2018年阿里巴巴提出来的模型，该模型基于业务的观察，从实际应用的角度进行改进，使模型更加具有业务气息。该模型的应用场景是阿里巴巴的电商广告推荐业务，这样的场景下会有大量的用户历史行为信息，DIN模型的创新点就是使用了注意力机制来对用户的兴趣动态模拟，而模拟过程存在的前提就是用户之前有大量的历史行为了，这个模型的使用场景非常注重用户的历史行为特征（历史购买过的商品或者类别信息）。Embedding&MLP...

2021-03-27 21:10:38 223

原创深度推荐模型-NFM

一、动机传统的FM模型仅局限于线性表达和二阶交互，无法胜任生活中各种具有复杂结构和规律性的真实数据，针对这点不足，作者提出了一种将FM融合进DNN的策略，通过引进一个特征交叉池化层的结构，使得FM与DNN完美衔接，这样组合了FM的建模低阶特征交互能力和DNN学习高阶特征交互和非线性的能力，形成了NFM模型。作者在这里的改进思路是用一个表达能力更强的函数来替代原FM中二阶隐向量内积的部分，表达能力更强的函数，使用神经网络来充当，是一个考虑了交叉，高层使用的DNN网络，最终形成NFM网络。二、模型结构

2021-03-24 11:35:02 288

原创深度推荐模型-DeepFM

一、动机对于CTR问题，被证明的最有效的提升任务表现的策略是特征组合（Feature Interaction），在CTR问题的探究历史上来看就是如何更好地学习特征组合，进而更加精确的描述数据的特点。可以说这是基础推荐模型到深度推荐模型遵循的一个主要的思想。DNN局限：当我们使用DNN网络解决推荐问题的时候由于在进行特征处理的时候我们需要使用one-hot编码来处理离散特征，导致输入的维度剧增，网络参数过于庞大。为了解决DNN参数量过大的局限性，可以采用非常经典的Field思想，将OneHot特征转

2021-03-21 11:01:39 257

原创深度推荐模型-Wide&Deep

一、动机在CTR预估任务中利用手工制造的交叉组合特征来使线性模型具有“记忆性”，使模型记住共现频率较高的特征组合，往往也能达到一个不错的baseline，且可解释性强。但这种方式有着较为明显的缺点：1.特征工程需要耗费太多精力。2.模型是强行记住这些组合特征的，对于未曾出现过的特征组合，权重系数为0，无法进行泛化。为了加强模型的泛化能力，研究者引入了DNN结构，将高维稀疏特征编码变为低维稠密的Embedding vector，这种基于Embedding的方式能够有效提高模型的泛化能力。但是，基于Em

2021-03-18 10:50:43 220

原创深度推荐系统模型-DeepCrossing

一、动机这个模型真正的把深度学习架构应用于推荐系统中的模型，2016年由微软提出，完整的解决了特征工程、稀疏向量稠密化，多层神经网络进行优化目标拟合等一系列深度学习再推荐系统的应用问题。这个模型涉及到的技术比较基础，在传统神经网络的基础上加入了enbedding、残差连接等思想，且结构比较简单。DeepCrossing模型应用场景是微软搜索引擎Bing中的搜索广告推荐，用户在输入搜索词之后，搜索引擎除了返回相关结果，还返回与搜索词相关的广告，Deep Crossing的优化目标就是预测对于某一广告，

2021-03-16 17:04:53 227

原创 CV-目标检测-不讲武德-炼丹与品尝

模型训练目标检测网络的训练流程如下：1.设置各种超参数2.定义数据加载模块dataloader3.定义网络model4.定义损失函数loss5.定义优化器optimizer6.遍历训练数据，预测-计算loss反向传播对单个epoch的训练逻辑进行了封装，实现如下：def train(train_loader, model, criterion, optimizer, epoch): """ One epoch's training. :param train_lo

2020-12-24 17:22:18 167 1

原创 CV目标检测-化劲儿-损失函数设计

匹配策略从ground truth boxes出发，寻找与每个ground truth boxes有最大的jaccard overlap(IOU)的proior bbox，这样就能保证每一个ground box一定与一个prior bbox对应起来。反之，若一个prior bbox没有与任何ground truth进行匹配，那么该prior bbox只能与背景匹配，就是负样本。一个图片中ground truth是非常少的，而prior bbox却很多，如果仅按第一个原则匹配，很多prior bbox会

2020-12-20 16:16:08 184

原创 CV目标检测-练死劲儿-网络设计

锚框设置不同尺度的先验框通常，为了覆盖更多可能的情况，在图中的同一位置，会设置几个不同尺度的先验框。不同尺度包括大小和长宽比等等。如图：通过设置不同尺度的先验框，就有更高的概率出现对于目标物体有良好匹配度的先验框（体现为高IOU）。先验框与特征图的对应先验框要铺洒在图片中不同位置上面，但遍历原图的每个像素，需要设置的先验框就太多了，一个224x224的图片，假设每个位置设置3个不同尺寸的先验框，那么就有224x224x3=150528个。所以，我们不去遍历原图，而是去遍历原图下采样得到的

2020-12-18 21:32:58 173

原创 CV目标检测学习分享——两个年轻人

这里写自定义目录标题功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、基础知识resize操作如果想对tensor进行类似resize/reshape的操作，可以使用torch.viewx = torch.randn(

2020-12-15 21:01:22 194

原创数据挖掘学习第一天

一、距离1.闵可夫斯基距离2.欧氏距离3.曼哈顿距离4.切比雪夫距离5.夹角余弦6.汉明距离nonzero:检测数组中非零数据的个数二、数据描述1.p分位数matlab求各种数据的命令：2.方差和变异系数极差：max(data)-min(data) 或者 range(data)四分位极差：上下四分位数Q3、Q1之差称为四分位之差，matlab中的命令为:iqr(data)3.偏度与峰度4.样本可视化条形图bar(x) 作样本数据x的条形图ba

2020-09-30 14:51:55 420

原创飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习---21日学习打卡（学习心得）

飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习—21日学习打卡（学习心得）**第一周第一周的学习安排从8月10号开始，8月10号开课仪式，并给大家留个一个小小的作业就是在本地安装飞桨PaddlePaddle和一个简单的输出九九乘法表的程序，对于初学者来说是相当友好的。之后的一周里毕然老师带领大家学习了零基础入门深度学习的一章，讲述了深度学习的产生，发展，及应用前景等等，利用一个真实的例子–房价预测模型从建立模型到数据处理到梯度下降一步步带着大家熟悉怎么建模来解决房价预测问题。最后

2020-08-25 17:12:13 438

Etc_in_the_great的博客