happiless-CSDN博客

原创超大图上的节点表征学习

一、图神经网络的挑战随着网络层数的增加, 计算成本呈指数增长保存整个图的信息和每一层每个节点的嵌入(embedding)需要消耗巨大的内存空间二、 Cluster-GCN的出现可能损失预测精度或者对提高内存的利用率并不显著无需保存整个图的信息和每一层每个节点的嵌入（embedding）2.1 概览1.利用图节点聚类算法将一个图的节点划分为c个簇, 每一次选择几个组的节点和边构造一个子图, 对子图进行训练2.由于利用图节点聚类算法划分多个簇, 所以簇内边的数量要比簇间边的数量要多得多

2021-07-02 01:36:19 181

原创数据完整存储于内存的数据集类+节点预测与边预测任务实践

一、完全基于内存的数据集类InMemoryDataset基类简介import torchfrom torch_geometric.data import InMemoryDataset, download_urlclass InMemoryDataset(root: Optional[str] = None, transform: Optional[Callable] = None, pre_transfo

2021-06-28 01:11:16 300

原创基于图神经网络的节点表征学习

获取并分析数据集dataset = Planetoid(root='./input/Cora', name='Cora', transform=NormalizeFeatures())print(f'dataset: {dataset}')print(f'number of graphs: {len(dataset)}')print(f'number of features: {dataset.num_node_features}')print(f'number of classes: {dat

2021-06-24 01:05:53 488

原创 GraphEmbedding与消息传递范式

一、GraphEmbedding1. DeepWalkDeepWalk在无向图上采用随机游走得到一个节点序列- d: embedding维度, γ\gammaγ: 迭代次数2. LINEDeepWalk在无向图上, LINE在有向图上适用于大规模的图上, 表示节点之间的结构信息一阶: 局部的结构信息二阶: 节点的邻居, 共享邻居的节点可能是相似的一阶二阶embedding训练完成之后, 直接拼接组合成一个embedding3. Node2vec同质性: BFS

2021-06-19 19:47:11 214

原创简单图论与PyG环境配置

一、简单图论图的表示图用节点表示实体（entities ），用边表示实体间的关系（relations）通过邻接矩阵来构造图在无向图中，从结点 viv_ivi 到 vjv_jvj 的边存在，意味着从结点 vjv_jvj 到 viv_ivi 的边也存在。因而无向图的邻接矩阵是对称的。在无权图中，各条边的权重被认为是等价的，即认为各条边的权重为1对于有权图，其对应的邻接矩阵通常被记为 W∈{0,1}N∗NW \in \{0, 1\}^{N * N}W∈{0,1}N∗N，其中Wi,j=wijW

2021-06-14 22:15:26 551 6

原创幸福感挖掘

一、学习知识点概要1.1 学习内容介绍阿里天池挖掘幸福感比赛入口: https://tianchi.aliyun.com/competition/entrance/231702/introduction1.2 学习目标通过学习能够挤进排行榜前5001.3 代码流程1.数据探索2.特征工程3.建模预测4.模型调参与融合二、学习内容1. 数据探索2. 特征工程import numpy as npimport pandas as pdpd.set_option('disp

2021-04-22 13:09:35 530 1

原创基于LightGBM的分类预测

一、学习知识点概要1.1 LightGBM的介绍1). 2017年经微软推出，XGBoost的升级版2). 模型精度: 两个模型精度相当3). 训练速度: LightGBM训练的速度更快 => 1/104). 内存消耗: LightGBM占用内存更小 => 1/65). 特征缺失值: 两个模型都可以自动处理特征缺失值6). 分类特征: XGBoost不支持类别特征，需要对其进行onehot编码，而LightGBM支持类别特征LightGBM的主要优点： 1.简单易用。提

2021-04-16 23:57:12 2226 4

原创基于XGBoost的分类预测

一. 学习知识点概要1.1 XGBoost的介绍优点1. 简单易用。相对其他机器学习库，用户可以轻松使用XGBoost并获得相当不错的效果。2. 高效可扩展。在处理大规模数据集时速度快效果好，对内存等硬件资源要求不高。3. 鲁棒性强。相对于深度学习模型不需要精细调参便能取得接近的效果。4. XGBoost内部实现提升树模型，可以自动处理缺失值。缺点：1. 相对于深度学习模型无法对时空位置建模，不能很好地捕获图像、语音、文本等高维数据。2. 在拥有海量训练数据，并能找到合适的深度学习模型时

2021-04-13 23:49:24 6118 10

原创基于逻辑回归的分类预测

一. 学习知识点概要1. 逻辑回归的介绍与应用1.1 逻辑回归的介绍逻辑回归（Logistic regression，简称LR）虽然其中带有"回归"两个字，但逻辑回归其实是一个分类模型，并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热，但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归，最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势:优点：实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低；缺点：容易欠拟合，分类

2021-04-12 11:26:06 1583

原创 Spark从入门到精通(五)--SparkSQL

SparkSQL使用DataFrame创建表将DataFrame注册成临时的一张表，这张表临时注册到内存中，是逻辑上的表，不会雾化到磁盘，就可以使用sqlframe.createOrReplaceTempView("mytable")将RDD转为DataSetReflection 反射的方式创建DataSetimport session.implicits._/** * 直接读取文件为DataSet */ val person: Dataset[String] = sessi

2020-07-13 00:50:53 186

原创 Spark从入门到精通(四)--二次排序和TopN问题

二次排序javaSparkConf conf = new SparkConf();conf.setAppName("SecondSort");conf.setMaster("local");JavaSparkContext context = new JavaSparkContext(conf);JavaRDD<String> textFile = context.textFile("./data/secondSort");JavaPairRDD<MySort, String

2020-07-13 00:50:22 162

原创 Spark从入门到精通(三)--SparkShuffle与广播变量和累加器

Spark ShufflereduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value，然后生成一个新的RDD，元素类型是<key,value>对的形式，这样每一个key对应一个聚合起来的valueShuffle Write:上一个stage的每个map task就必须保证将自己处理的当前分区中的数据相同的key写入一个分区文件中，可能会写入多个不同的分区文件中Shuffle Read:reduce task就会从上一个stage的所有task所在的

2020-07-13 00:49:18 283

原创 Spark从入门到精通(七)--Spark优化

Spark优化

2020-07-13 00:48:37 245

原创 Spark从入门到精通(六)--SparkStreaming

SparkStreamingSparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。Flink & Storm & SparkStreaming 区别：Strom:纯实时处理数据，吞吐量小 --水龙头滴水SparkStreaming : 准实时处理数据，微批处理数

2020-07-13 00:45:46 203

原创 Spark从入门到精通(二)--SparkCore与RDD编程

Spark代码流程

2020-07-13 00:45:09 333

原创 Spark集群搭建与任务提交

Spark集群搭建安装jdk解压安装spark修改配置文件cd spark-2.3.1/confcp slaves.template slavesvi slaves node02 node03cp spark-env.sh.template spark-env.shvi spark-env.sh export SPARK_MASTER_HOST=node01 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CO

2020-07-12 22:09:23 154

原创 Spark从入门到精通(一)--Spark架构

前言犹豫了很久，最终还是决定开始写点什么来记录自己的程序人生，我做过全栈工程师，做过大数据开发，对算法也有一定的研究。很多人可能会有疑问，为什么写的第一篇文章居然是spark的，像hadoop，hive等很多大数据技术都没讲，首先一方面原谅我的私心，因为我打算在我的团队内部做一个spark的培训，另外还有一方面spark是最实用的东西，大家可以关注我，之后我会把我学过的一些大数据组件，以及机器学习，深度学习的技术都分享出来，也会继续学习新东西并分享出来。Spark架构Spark与MapReduce的

2020-07-12 22:08:35 171

happiless的博客