2021年10月_u013250861

原创推荐模型-上下文感知-2016：FNN模型【FM家族】【FM+MLP=FNN】

FNN模型是2016提出来的，当时各大公司都还在探索如何将深度学习技术应用于推荐系统，一些头部公司开始了初步的尝试，比如Google应用并发表了Wide&Deep模型，微软在Bing的搜索广告场景尝试了Deep Crossing模型，都是那个时代的代表模型，对业界发展起到了重要作用。由于Embedding的初始值得到了FM的预训练，因此在训练DNN的时候，模型收敛速度更快；模型的核心思想是采用FM训练得到的隐向量作为神经网络第一层权重的初始值，之后是隐藏层，最后是点击率预估的输出。.............

2021-10-31 23:45:00 281

原创排序层-传统模型-2014：GBDT+LR模型【“首次”实现特征工程自动化，实现端到端训练】【①用GBDT构建特征工程；②利用LR预估CTR；这2步骤是独立训练的】

GBDT+LR 使用最广泛的场景是CTR点击率预估，即预测当给用户推送的广告会不会被用户点击。协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，来产生最后的预测结果，该模型能够综合利用用户、物品和上下文等多种不同的特征，生成较为全面

2021-10-31 23:30:00 857

原创 GNN-2008：Original GNN【消息传递（前向传播）：聚合函数+更新函数+输出函数】【核心：不动点理论】【梯度优化：用Almeida-Pineda算法，而不是用BPTT(反向传播)算法】

GNN-2008：Original GNN【消息传递（前向传播）：聚合函数+更新函数+输出函数】【核心：不动点理论】【梯度优化：用Almeida-Pineda算法，而不是用BPTT(反向传播)算法】

2021-10-31 23:15:00 924

原创推荐系统(RS)-

图神经网络05

2021-10-31 23:15:00 102

原创推荐模型-上下文感知-2015：FFM模型【在FM基础上引入特征域】【每个特征对应的不是唯一一个隐向量权重，而是一系列，与每个特征域都计算出一个隐向量权重】【FM：O(kn)；FFM：O(knf)】

2015年，Criteo基于FM提出的FFM在多项CTR预估大赛中夺魁，并被Criteo、美团等公司深度应用在推荐系统、CTR预估等领域。相比FM模型，FFM模型引入了特征域感知（field-aware）这个概念，使模型的表达能力更强了。，整整比FM算法多了一个F！多出来的F意为Field。..................

2021-10-31 22:45:00 357

原创 GNN-频域-2014：Spectral Networks and Locally Connected Networks on Graphs（频谱图卷积神经网络）【第一篇从频域角度分析】

空域卷积非常直观地借鉴了图像里的卷积操作，但缺乏一定的理论基础。而频域卷积则不同，相比于空域卷积而言，它主要利用的是**图傅里叶变换(Graph Fourier Transform)**实现卷积。简单来讲，它利用图的**拉普拉斯矩阵(Laplacian matrix)**导出其频域上的的拉普拉斯算子，再类比频域上的欧式空间中的卷积，导出图卷积的公式。虽然公式的形式与空域卷积非常相似，但频域卷积的推导过程却有些艰深晦涩。接下来我们将攻克这部分看起来很难的数学公式，主要涉及到。

2021-10-31 22:39:23 1030

原创推荐系统-排序算法：常用评价指标：NDCG、MAP、MRR、HR、ILS、ROC、AUC、F1等

推荐系统-排序算法：MAP指标（Mean Average Precision）

2021-10-31 22:38:52 1231

原创 GNN-第三方库：PyTorch Geometric Temporal【PyG的一个时间图神经网络扩展库】

PyTorchGeometricTemporal是PyTorchGeometric（PyG）的一个时间图神经网络扩展库。它建立在开源深度学习和图形处理库之上。PyTorchGeometricTemporal由最先进的深度学习和参数学习方法组成，用于处理时空信号。PyTorchGeometricTemporal是第一个用于几何结构的时间深度学习的开源库，并在动态和静态图上提供常量时差图神经网络。我们使用离散时间图快照（discretetimegraphsnapshots）来实现这一点。...

2021-10-31 22:38:04 1487 1

原创 GNN-频域-2016：ChebNet【频谱图卷积】【切比雪夫多项式(ChebShev Polynomial)】【应用切比雪夫多项式加速特征矩阵求解】【GCN来源于对ChebNet的进一步简化与近似】

其实之前我们也举了一些例子，比如最朴素的方法，例如图上所有结点的表示取个均值，即可得到图的表示。那有没有更好的方法呢，它们各自的优点和缺点又是什么呢，本篇主要对上面这两个问题做一点探讨。篇幅不多，理论也不艰深，请读者放心地看。前面两篇博客分别介绍了基于循环的图神经网络和基于卷积的图神经网络，那么在本篇中，我们则主要关注在。基本的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量，计算量巨大。切比雪夫多项式是以递归方式定义的一系列正交多项式序列。的作用是让特征向量矩阵归一化到。假设切比雪夫多项式的第。

2021-10-31 22:37:26 1290 1

原创 GNN-第三方库：DGL【图神经网络框架，支持对异构图的处理，开源相关异构图神经网络的代码，在GCMC、RGCN等业内知名的模型实现上也取得了很好的效果】

DGL库的逻辑层使用了顶点域的处理方式，使代码更容易理解。同时，又在底层的内存和运行效率方面做了大量的工作，使得框架可以发挥出更好的性能。

2021-10-31 22:36:52 880 1

原创 NLP-信息抽取-关系抽取-2017：基于神经网络的实体识别和关系抽取联合学习

《原始论文：Joint entity and relation extraction based on a hybrid neural network》参考资料：基于神经网络的实体识别和关系抽取联合学习

2021-10-30 22:45:00 232

原创 NLP-信息抽取-关系抽取-2016：BiLSTM-TreeLSTM实体识别-关系联合抽取【】

《原始论文：End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》

2021-10-30 22:15:00 326

原创矩阵的谱分解

矩阵分解（Matrix Factorization）方式：矩阵的谱分解（可对角化矩阵——满秩可逆）矩阵的LU分解（n阶方阵，不一定存在）Chelesky分解（实正定矩阵）满秩分解（LR）（m*n矩阵）（不唯一，总存在）矩阵QR分解（可逆矩阵存在）（唯一）矩阵的奇异值分解（普适性很强，要求很低）极分解（方阵，如果A可逆，则唯一）参考资料：第十三课：矩阵的谱分解（一）如何通俗解释谱分解？谱分解有哪几种方法？谱分解（SD）第四节矩阵谱分解...

2021-10-30 22:06:19 2786

原创随机游走算法(Random Walk)

参考资料：介绍一个全局最优化的方法：随机游走算法(Random Walk)

2021-10-30 22:00:11 2162

原创 GNN-节点向量(Node Embedding)的表征学习-发展：随机游走/一阶&二阶相似度(静态表征)【直接学习出各个节点的向量表示】 --＞图卷积(动态表征)【学习节点间聚合函数的参数】

2017：A Survey on Network Embedding

2021-10-30 21:16:25 501 1

原创 GNN-图卷积模型-2016：MoNET【考虑邻域邻域中各节点的重要性的不同】

图神经网络(GNN)-2013：Translating embeddings for modeling multi-relational data

2021-10-30 21:08:23 414

原创 GNN：“图卷积模型”通用框架【每一层网络都基于邻域节点(1-hop)更新当前节点的向量表示（一般用2~3层）】【消息传递：①从邻域节点汇聚信息；②更新当前节点状态】【各模型区别：聚合函数类型的选取】

在开始正式介绍图卷积之前，我们先花一点篇幅探讨一个问题：为什么研究者们要设计图卷积操作，传统的卷积不能直接用在图上吗？要理解这个问题，我们首先要理解能够应用传统卷积的**图像(欧式空间)与图(非欧空间)**的区别。如果把图像中的每个像素点视作一个结点，如下图左侧所示，一张图片就可以看作一个非常稠密的图；下图右侧则是一个普通的图。阴影部分代表卷积核，左侧是一个传统的卷积核，右侧则是一个图卷积核。卷积代表的含义我们会在后文详细叙述，这里读者可以将其理解为在局部范围内的特征抽取方法。仔细观察两个图的结构，我们可

2021-10-30 21:07:40 1168 1

原创 GNN-静态表征-随机游走-2014：DeepWalk【步骤：①随机游走策略生成每个节点的训练序列（DFS），得到训练数据集；②套用Word2vec算法得到节点表示】【捕获二阶相似度】【浅层、同质图】

图神经网络(GNN)-2014：DeepWalk: online learning of social representations

2021-10-30 21:04:39 416 1

原创 NLP-文本摘要：数据集介绍及预处理【CNN/DM（偏抽取式）、NYT Annotated Corpus（偏抽取式）、Newsroom（抽取式+生成式）、XSum（抽取式/BBC）、XL-Sum】

论文《Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond》第一次提出。训练集中的源文档平均有766个单词，共29.74句，而摘要由53个单词和3.72句组成。【The source documents in the train- ing set have 766 words spanning 29.74 sentences on an average while the summaries consist of

2021-10-29 23:15:00 12418

原创人工智能-损失函数-优化算法：梯度下降法的背后原理【一阶泰勒展开】

一、梯度下降法梯度下降算法的思想，它将按如下操作达到最低点：明确自己现在所处的位置。找到相对于该位置而言下降最快的方向。沿着第二步找到的方向走一小步，到达一个新的位置，此时的位置肯定比原来低。回到第一步。终止于最低点。从数学角度来看，多元函数的梯度方向是函数增长最快的方向，那么梯度的反方向就是函数减少最快的方向。以二元函数为例：z=f(x,y)z = f(x,y)z=f(x,y)现在确定一个点 (x0,y0)(x_{0},y_{0})(x0,y0)，这个点是水平面上的，即在 xo

2021-10-29 22:44:06 711 1

原创机器学习-降维方法-有监督学习：LDA算法(线性判别分析)【流程：①类内散度矩阵Sw-＞②类间散度矩阵Sb-＞计算Sw^-1Sb的特征值、特征向量W-＞得到投影矩阵W-＞将样本X通过W投影进行降维】

LDA 是一种有监督学习算法，同时经常被用来对数据进行降维。相比于PCA，LDA可以作为一种有监督的降维算法。在PCA中，算法没有考虑数据的标签（类别），只是把原数据映射到一些方差比较大的方向上而已。LDA的中心思想：投影后类内方差最小，类间方差最大。要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。现在我们首先从比较简单的二类LDA入手，严谨的分析LDA的原理：假设我们的数据集D={(x1,y1),(x2,y2),...,

2021-10-29 20:40:29 3506 1

原创 Auto-Regressive（自回归）、Auto-Encoding（自编码）

参考资料：Seq2seq, autoregressive, autoencoding的区别，三百字讲清楚

2021-10-26 22:15:00 2050

原创自然语言处理(NLP)-模型常用技巧：Mask【Padding Mask、Subsequent Mask】

对于NLP中 Mask 的作用（ps：padding mask 和 Subsequent mask不是官方命名）：Padding mask：处理非定长序列，区分padding和非padding部分，如在RNN等模型和Attention机制中的应用等Subsequent mask：防止标签泄露，如：Transformer decoder中的mask矩阵，BERT中的[Mask]位，XLNet中的mask矩阵等一、Padding Mask【处理非定长序列】在NLP中，文本一般是不定长的，所以在进行

2021-10-25 23:15:00 6624 2

原创人工智能-范数 norm：L1范数和L2范数【L0范数：向量中非0的元素的个数； L1范数：向量各元素的绝对值之和（曼哈顿距离）；L2范数：向量各元素的平方和的开方值（欧氏距离）】

范数是衡量某个向量空间(或矩阵)中的每个向量的长度或大小。∥x∥p:=(∑i=1n∣xi∣p)1p\left \| x\right \|_p := \left( \sum_{i=1}^{n}\left|x_i\right|^p\right)^{\frac{1}{p}}∥x∥p:=(i=1∑n∣xi∣p)p1L0范数：向量中非0的元素的个数。L0 范数是 ∣∣x∣∣0=xi(xi不等于0)代表非0数字的个数||\textbf{x}||_0 = x_i (x_i不等于0)代表非0数字的个数∣∣x∣

2021-10-23 22:45:00 589

原创 NLP-文本匹配-2016：MaLSTM（ManhaĴan LSTM，孪生神经网络模型）【语句相似度计算：用于文本对比，内容推荐，重复内容判断】【将原本的计算余弦相似度改为一个线性层来计算相似度】

MaLSTM模型（ManhaĴan LSTM，孪生神经网络）介绍模型的构建之前，我们先介绍下孪生神经网络(Siamese Network)和其名字的由来。Siamese和Chinese有点像。Siamese是古时候泰国的称呼，中文译作暹罗。Siamese在英语中是“孪生”、“连体”的意思。为什么孪生和泰国有关系呢？十九世纪泰国出生了一对连体婴儿，当时的医学技术无法使两人分离出来，于是两人顽强地生活了一生，1829年被英国商人发现，进入马戏团，在全世界各地表演，1839年他们访问美国北卡罗莱那州后来成

2021-10-22 21:28:46 1770 1

原创敏捷开发是什么？

敏捷开发（Agile）是一种以人为核心、迭代、循序渐进的开发方法。在敏捷开发中，软件项目的构建被切分成多个子项目，各个子项目的成果都经过测试，具备集成和可运行的特征。简单地来说，敏捷开发并不追求前期完美的设计、完美编码，而是力求在很短的周期内开发出产品的核心功能，尽早发布出可用的版本。然后在后续的生产周期内，按照新需求不断迭代升级，完善产品。是谁这么厉害，提出了敏捷开发思想？是一位名叫 Martin Fowler 的美国大叔。大叔不但是敏捷开发的创始人之一，还在面向对象开发、设计模式、UML 建模领

2021-10-18 23:45:00 406

原创 itertools 的 chain() 方法

chain()可以把一组迭代对象串联起来，形成一个更大的迭代器# -*- coding:utf-8 -*-from itertools import chainfrom random import randint# 随机生成 19 个整数（在 60 到 100 之间）c1 = [randint(60, 100) for _ in range(19)]# 随机生成 24 个整数（在 60 到 100 之间）c2 = [randint(60, 100) for _ in range(24)]#

2021-10-18 22:45:00 353

原创 Python数据序列化：文本序列化 ----＞ json【json.dump()、json.load()】

Python数据序列化：文本序列化 ----> json【json.dump()、json.load()】

2021-10-09 23:15:00 106

原创 Pytorch模型保存/加载方式：①只保存/加载模型参数【推荐】；②保存/加载整个模型（结构+参数）；③保存模型Checkpoint；④CPU/GPU保存加载【后缀：pt、pth、pkl】

当提到保存和加载模型时，有三个核心功能需要熟悉：torch.save：将序列化的对象保存到disk。这个函数使用Python的pickle实用程序进行序列化。使用这个函数可以保存各种对象的模型、张量和字典。torch.load：使用pickle unpickle工具将pickle的对象文件反序列化为内存。torch.nn.Module.load_state_dict:使用反序列化状态字典加载model’s参数字典。一、模型保存与调用方式一：只保存模型参数1、模型保存model = TheMo

2021-10-02 23:15:00 1106 1

原创 Python数据序列化：①对象序列化 pickle【pickle.dump()、pickle.load()】、②文本序列化 json【json.dump()、json.load()】、③shelve

一、pickle模块详解pickle模块实现了用于序列化和反序列化Python对象结构的二进制协议。pickle提供了一个简单的持久化功能。可以将对象以文件的形式存放在磁盘上。pickle模块只能在python中使用，python中几乎所有的数据类型（列表，字典，集合，类等）都可以用pickle来序列化，“Pickling”是将Python对象层次结构转换为字节流的过程， “unpickling”是反向操作，从而将字节流（来自二进制文件或类似字节的对象）转换回对象层次结构。pickle模块对于错误或

2021-10-02 22:45:00 662

原创 Pytorch模型加载函数：torch.load()

一、torch.load()的作用：用来加载torch.save() 保存的模型文件torch.load()先在CPU上加载，不会依赖于保存模型的设备。如果加载失败，可能是因为没有包含某些设备，比如你在gpu上训练保存的模型，而在cpu上加载，可能会报错，此时，需要使用map_location来将存储动态重新映射到可选设备上，比如map_location=torch.device(‘cpu’)，意思是映射到cpu上，在cpu上加载模型，无论你这个模型从哪里训练保存的。一句话：map_location适用

2021-10-02 22:45:00 3709

原创 Python常用函数：glob.glob()：返回所有匹配的文件路径列表、glob.iglob()：获取一个可遍历生成器，使用它可以迭代获取匹配的文件路径名

glob模块是最简单的模块之一，内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符：“*”：匹配0个或多个字符；“?”：匹配单个字符；“[]”：匹配指定范围内的字符，如：[0-9]匹配数字；glob.glob返回所有匹配的文件路径列表。它只有一个参数pathname，定义了文件路径匹配规则，这里可以是绝对路径，也可以是相对路径。下面是使用glob.glob的例子：import glob#获取指定目录下的所有图片print

2021-10-01 23:45:00 839

原创 Python常用函数：os.path()【提供了目录相关（路径判断、路径切分、路径连接、文件夹遍历）的操作】

以下是 os.path 模块的几种常用方法：方法说明os.path.abspath(path)返回绝对路径os.path.basename(path)返回文件名os.path.commonprefix(list)返回list(多个路径)中，所有path共有的最长的路径os.path.dirname(path)返回文件路径os.path.exists(path)路径存在则返回True,路径损坏返回Falseos.path.lexists路径存在

2021-10-01 23:30:00 826

《Approaching (Almost) Any Machine Learning Problem》

中文小说短句序列文本复述数据集

时间序列预测-第六届全国工业互联网数据创新应用大赛：工业生产反应装置的建模预测

clustering-test-data

stop-words.txt

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

英文单词拼写混淆集：spell-errors.txt

带有词频的词典库：vocab.txt

空空如也