![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 88
qq_26387487
这个作者很懒,什么都没留下…
展开
-
第三章模型建立和评估笔记
第三章 模型搭建和评估–建模经过前面的两章的知识点的学习,我可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。今天我们学习建模,下一节我们学习评估。我们拥有的泰坦尼克号的数原创 2021-07-20 21:54:35 · 537 阅读 · 0 评论 -
第二章:第四节数据可视化-笔记
第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是第二章第三节:数据可视化,主要给大家介绍一下Python数据可视化库Matplotlib,在本章学习中,你也许会觉得数据很有趣。在打比赛的过程中,数据可视化可以让我们更好的看到每一个关键步骤的结果如何,可以用来优化方案,是一个很有用的技巧。2 第二章:数据可视化开始之前,导入numpy、pandas以及matplotlib包和数据# 加载所需的库# 如原创 2021-07-18 20:15:32 · 838 阅读 · 0 评论 -
第二章:第三节数据重构笔记
开始之前,导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pdimport osos.getcwd()'C:\\Users\\Hello\\Desktop\\hands-on-data-analysis-master\\chapterTwo'# 载入data文件中的:train-left-up.csvdf=pd.read_csv('./data/train-left-up.csv')df.head()原创 2021-07-17 22:15:50 · 184 阅读 · 0 评论 -
第二章:第一节数据清洗及特征处理笔记
学习做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as nmimport pandas as pd#加载数据train.csvdf=pd.read_csv('train.csv')df.head(3) PassengerId Survived原创 2021-07-14 17:50:39 · 160 阅读 · 0 评论 -
超大图cluster gcn
Cluster-GCN方法简单概括为了解决普通训练方法无法训练超大图的问题,Cluster-GCN论文提出:利用图节点聚类算法将一个图的节点划分为 [公式] 个簇,每一次选择几个簇的节点和这些节点对应的边构成一个子图,然后对子图做训练。由于是利用图节点聚类算法将节点划分为多个簇,所以簇内边的数量要比簇间边的数量多得多,所以可以提高表征利用率,并提高图神经网络的训练效率。每一次随机选择多个簇来组成一个batch,这样不会丢失簇间的边,同时也不会有batch内类别分布偏差过大的问题。基于小图进行训练,原创 2021-07-01 23:30:10 · 423 阅读 · 1 评论 -
task5inmemorydataset的使用
对于占用内存有限加粗样式的数据集,可以将整个数据集的数据都存储到内存里。PyG提供了方便的构造数据完全存于内存的数据集类,简称为InMemory数据集类。学习构造InMemory数据集类的方式如下:PyG定义了使用数据的一般过程:1.从网络上下载数据原始文件;2.对数据原始文件做处理,为每一个图样本生成一个Data对象;3.对每一个Data对象执行数据处理,使其转换成新的Data对象;4.过滤Data对象;5.保存Data对象到文件;6.获取Data对象,在每一次获取Data对象时,都先对D原创 2021-06-27 19:55:36 · 437 阅读 · 0 评论