晃晃我的半瓶水-CSDN博客

原创 t学习总结

在本次组队学习中我的总结如下，首先我需要为我的队员们说一声抱歉，抱歉我没有做到一名队长所应该做到的事情，没有能够起到联系队员之间的纽带关系，使得队员们对队伍的联系关系极为薄弱，队员之间缺乏更多的交流。我在一时起兴的情况下便报名的队长的身份，完全没有考虑到我有没有作为一名队长所应该掌握的知识深度、阅历广度和为人处事的交际能力。比如我对自己的学习时间的把握上不能够做到严于律己，导致很多的时间无法有效的运用在组队学习中，也无法在遇到问题时能够和队员们进行透彻的交流；然后就我没有能够对自己所掌握的知识的深度有

2021-07-10 23:32:28 236 2

转载 2021-07-09

# 超大规模数据集类的创建在前面的学习中我们只接触了数据可全部储存于内存的数据集，这些数据集对应的数据集类在创建对象时就将所有数据都加载到内存。然而在一些应用场景中，**数据集规模超级大，我们很难有足够大的内存完全存下所有数据**。因此需要**一个按需加载样本到内存的数据集类**。在此上半节内容中，我们将学习为一个包含上千万个图样本的数据集构建一个数据集类。## `Dataset`基类简介在PyG中，我们通过继承[`torch_geometric.data.Dataset`](https://p

2021-07-09 23:43:27 1029

原创 task06任务打卡

实现基于图同构网络的图标正网络的实现的步骤主要是：首先计算得到节点特征，然后需要对图上各个节点的表征作图池化来得到图的表征。#图表征模块：通过对图上的节点作节点嵌入从而得到节点表征，然后通过对节点表征作图池化来得到图的表征信息，最后则通过使用一层线性变换来获取图的表征信息。import torchfrom torch import nnfrom torch_geometric.nn import global_add_pool, global_mean_pool, global_max_pool

2021-07-05 22:47:55 219

原创 task05超大图的节点表征学习：

Cluster—GCN论文提出的主要出发点是现有的图神经网络在图的规模不是特别大的时候能够被广泛的应用在图节点和边的预测任务中，现有的SGD图神经网络仍能够获得不错的结果，但在随着图规模的增大和图神经网络层数的增加，现有的训练方式所需要的内存空间是远不能够被满足的，同时虽然有论文提出了可以不将整个图的信息和每一层每个节点潜入到GPU内存的方法，但这些方法的效果却不尽人意，在预警精度的偏差上和内存使用率的变化上并没有产生有效的变化。Cluster_GCN所使用的办法是将超大图通过图聚类算法划分成若干个簇，

2021-07-01 23:05:22 125 1

原创 task04

##### 1. 节点预测任务：更换网络层、层数、out_channels```pythonclass GC(torch.nn.Module): def __init__(self, num_features, hidden_channels_list, num_classes): super(GC, self).__init__() torch.manual_seed(12345) hns = [num_features] + hidde.

2021-06-27 17:56:58 120 1

原创 task03任务打卡

import maatplotlib.pyplot as pltimport sklearn.manifold import TSNEdef visualize(h, color): z = TSNE(n_components=2).fit_transform(out.detack().cpu().numpy()) plt.figure(figsize=(10,10)) plt.xticks([]) plt.yticks([]) plt.scatter(z[:,

2021-06-23 22:47:40 103

原创 2021-06-19

task02消息传递神经网络MessagePassing类的运行流程调用propagate函数开始执行传播信息的调用过程调用message函数开始执行传递信息的调用aggregate函数开始执行信息的聚合处理过程任务即将源节点上的传递过来的消息聚合在目标节点上继承MessagePassing类的规范首先需要对MessagePassing基类的函数聚合方式和消息流传递方向进行确定然后需要对前向传播函数进行重写，且前线传播函数的返回值为使用超类的propagate函数完成消息传递的任

2021-06-19 23:06:32 91

原创 2021-06-16

torch出现问题以及解决问题：直接使用pip 或conda 安装是无法成功将pytorch安装。需要使用pytorch官网进行相应版本的选择以及进行安装。torch_geometric安装问题，出现no matching distribution found for XXX / Read timed out.问题，问题出现原因时国内镜像源出现错误或者连接超时等情况，需要使用在pip安装命令之后加上设置相应超时时间和镜像源的相关信息 --default-timeout=100 -i https://py

2021-06-16 21:54:33 69

原创 baseline学习

在学习时间序列Baseline过程中所遇到的问题有，首先是对nc格式张量的转化有了一定的了解，但是对于数据具体表示结构和索引处理方法却一知半解，比如对模型中训练集shape的转化了解不同，对于Baseline中提供的h5模型不够了解，缺乏认知，再有就是通过这次baseline的学习熟悉了天池比赛平台的任务提交整体流程，提交镜像所需要配置文件的构建流程，像result的封装方法，和压缩包的生成函数方法，test_path = './tcdata/enso_round1_test_20210201/'##

2021-02-21 18:19:26 636

原创 Windows内存映射读取txt大文件

https://docs.microsoft.com/en-us/windows/win32/memory/creating-a-view-within-a-fileMSDN参考文件./-----------------------------------------

2021-02-05 15:13:48 235

原创 task05

打开教程 -> 懂了 -> 会了 -> 关掉教程 -> 我是菜鸡!!!

2021-01-17 20:05:21 73

原创数据采集

文章目录开源数据采集开源数据网络爬虫采集理论基础网络爬虫技术HTMLHTML标准简介：HTML文档预处理正则表达式开源数据采集开源数据的采集与抽取为利用网络爬虫技术从开源网站上获取实体,海量的网络开源主页,通过解析HTML网页,利用正则表达式从主题网页上提取对应开源数据的主要内容开源数据网络爬虫采集理论基础网络爬虫技术网络爬虫(Web Crawler),也叫做网页蜘蛛或网络信息收集器,是一种能够对网页进行自动访问的软件程序或自动化脚本,它能够跟随某个链接访问整个Web信息空间,是组成搜索引擎的重要

2021-01-15 19:19:05 362

原创 2021-01-13

任务1思路使用read_table导入数据筛选出来日志结果因为奇偶行存储不同的信息,因此需要进行抽取出来进行使用通过正则表达式进行模式匹配,提取目标信息之后通过列合并将偶数行数据整理成表格抽取出奇数行日志信息, 匹配平均训练结果.将偶数表得到的测试模型及数据结果类型与奇数表得到的测试模型及测试的具体结果通过以模型列为主键的形式进行合并.最后通过长短表转换功能实现长短表的转换....

2021-01-13 22:53:31 87

原创 task03

Neo4j的高性能查询Neo4j作为一个原生的图数据库引擎，它存储了原生的图数据，可以通过使用图结构的自然伸展特性来设计免索引邻近节点遍历的查询算法，即图的遍历算法设计。图的遍历是图数据结构所具有的独特算法，即从一个节点开始，根据其连接的关系，可以快速和方便地找出它的邻近节点。这种查找数据的方法并不受数据量的大小所影响，因为邻近查询查找的始终是有限的局部数据，而不会对整个数据库进行搜索。Neo4j具有非常高效的查询性能，相比于RDBMS，查询速度可以提高数倍乃至数十倍.而且查询速度不会因数据量的增长而下降

2021-01-13 22:25:03 97

原创 Neo4j知识图谱 task02

存在问题1:jupyter notebook环境依赖与py2neo依赖冲突py2neo依赖于 prompt-toolkit==2.0.10jupyter notebook 依赖于prompt-toolkit==1.0.15两个模块互相死掐, 左右横跳.解决方法:放弃使用jupyter notebook开发,直接使用命令行进行知识图谱的构建,存在问题2:build_graph.py函数参数错误.解决方法:因为在环境下无法进入制定路径运行py文件, 所以需要修改文件中路径的具体参数, 另外,

2021-01-12 22:39:51 130

原创 Neo4j task01 学习笔记

微软和谷歌拥有全世界最大的通用知识图谱；Facebook拥有全世界最大的社交知识图谱；阿里巴巴和亚马逊分别构建了商品知识图谱。知识图谱：定义：本质上时一个语义网络的知识库。实际应用上可以简单理解为多关系图。价值：学科概念上有浅到深有人工智能 -> 知识工程 -> 知识表示 -> 知识图谱。图的定义：图的构成为节点和边，多种类型的节点和多种类型的边可构成多关系。节点（实体）：现实世界中的事物，如人、地名、概念、药物、公司等边（关系）：表达不同实体之间的某种联系，如人-

2021-01-11 13:50:08 660 1

原创 pandas组队学习 task10-时间序列

pandas组队学习 task-10import pandas as pdimport numpy as nppath = r'C:\Users\yongx\Desktop\data'时序中的基本对象时间戳(Data times):表示时刻的特殊字符串,如’2020-9-7 08:00:00’.pandas中称之为Timestamp.由时间戳元素构成的序列可以组成DatetimeIndex,当将其放入Series中,Series的类型将变为datetime64[ns],同时当涉及时区时为da

2021-01-10 16:09:33 472

原创 pandas学习 task09

import pandas as pdimport numpy as npcat对象cat对象的属性pandas提供了category类型以便于用户处理分类类型的变量,将一个序列转换成分类变量可以使用astype方法.分类类型的Series中定义了cat对象,该对象类似于str定义了一些属性和方法来进行分类类别的操作.对于一个具体的分类,有两个组成部分,其一为类别的本身,它以Index类型存储,其二为是否有序,它们都可以通过cat的属性被访问.除此之外,每一个序列的类别都会被赋予唯一的整数编号,它

2021-01-07 21:44:17 217 1

原创 pandas task-08

pandas task-08 组队学习import numpy as npimport pandas as pdstr对象str对象的设计意图str对象为定义在Index或Series上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法, pandas沿用了Python的标准库中str模块中的部分函数以保证使用上的便利var = 'abcd'print(str.upper(var))print('-'*50)s = pd.Series(['abcd','efg','hi'])pr

2021-01-05 23:03:20 155

原创 pandas组队学习-task07

import numpy as npimport pandas as pdpath = r'C:\Users\yongx\Desktop\data'缺失值的统计和删除缺失数据的统计通过使用isna和isnull来查看每个单元格是否有缺失,同时结合mean函数求得每列缺失值的比例.针对某列或某行统计缺失值时使用Series上的isna或notna而进行布尔索引同时对若干个列检索全部缺失或存在缺失的行时通过使用isna,notna和all,any函数的组合实现对应功能df = pd.re

2021-01-03 22:26:37 217 1

原创 Pandas 组队学习 task-mid

import pandas as pdimport numpy as nppath = r'C:\Users\yongx\Desktop\mid'data1 = pd.read_csv(path + '\\company.csv')data2 = pd.read_csv(path + '\\company_data.csv')df1 = data1.copy()df2 = data2.copy()df2['日期'] = pd.to_datetime(df2['日期'],errors =

2021-01-01 22:09:31 165 1

原创 pandas组队学习task06

import numpy as npimport pandas as pd关系型连接连接的基本概念把两张相关的表按照某一个或某一组键连接起来即为连接表,关系型连接中,键常用on表示并且十分重要.同时连接的形式也十分重要,pandas中关系型连接函数有merge和join,其中提供how参数代表连接形式,左连接left:以左边的键为准,若右边键在左边存在则添加到左边,否则处理为缺失值.右连接right:类似于左连接内连接inner:只合并左右表同时出现的键.外连接outer:在内连接的基

2020-12-29 23:42:31 136 1

原创 Pandas组队学习Task05

Pandas组队学习Task05import pandas as pdimport numpy as nppath = r"C:\Users\yongx\Desktop\data"长宽表的变形当一个特征元素值作为列向量时为长表，作为列名时为宽表两种表信息信息上完全等价，包含相同的身高统计数值# 长表pd.DataFrame({'Gender':['F','F','M','M'], 'Height' : [163,160,175,180]})

2020-12-27 15:48:26 292 1

原创 pandas组队学习task04

DataWhale组队学习task04知识点import pandas as pdimport numpy as nppath = r"C:\Users\yongx\Desktop\data"df = pd.read_csv(path +'\\learn_pandas.csv')#groupby 分组可直接通过列中按照名字获取,也可通过一定逻辑来分组# 根据学生体重是否超过总体均值来分组,同时计算身高的均值condition = df.Weight > df.Weight.m

2020-12-25 21:03:25 126

原创 Pandas 学习-task03

import pandas as pdimport numpy as nppath = r"C:\Users\yongx\Desktop\data"df = pd.read_csv(path + "\\learn_pandas.csv", \ usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])df['Name'].head(2)0 Gaopeng Yang

2020-12-22 13:38:35 450 3

原创 Pandas 学习task02

import numpy as npimport pandas as pdpd.__version__'1.1.5'path = r"C:\Users\yongx\Desktop\data"'''pandas 导入文件方式有read_csv, read_table, read_excel;常用公共参数有:1. header : 首行是否为列名。2. index_col : 选择索引列。3. usecols : 指定读取列。4. parse_dates ：需要转化成时间的列。

2020-12-19 22:45:26 106 1

原创 Pandas组队学习第一次学习任务

Pandas组队学习第一次学习任务1. 匿名函数和map函数结合的运用有 map(self, /, *args, ** kwargs)->map(func, *iterables) --> map object，参数func即为将要进行操作函数，*iterables 为将要进行运算的可迭代对象即原始数据。返回结果为map object可迭代map对象，此时可通过list将map 对象值解析。注意到将匿名函数使用在列表推导式中时，有(lambda x: ...)(*args)。Pandas中

2020-12-16 22:50:25 109 1

原创 win10创建系统还原点

win10创建系统还原点将系统还原功能打开使用win+R打开gpedit.msc设置系统还原功能，之后依次点击本地计算机策略 -> 管理模板 -> 系统 -> 系统还原。将关闭配置由已启用、未配置更改为已禁用，点击引用、确定。将关闭系统还原由已启用、未配置更改为已禁用，点击引用、确定。设置系统还原使用 win+S 搜索创建还原点选中系统盘，点击配置，选择启用系统保护，设置最大使用量10-20差不多了就。之后点击确定，设置还原点名，建议使用日期命名。参考链接

2020-12-15 16:25:18 2759

原创新闻推荐比赛-—学习任务05—排序模型和模型融合

rylou新闻推荐排序模型：LightGBM排序模型、LightGBM分类模型、DIN分类模型模型融合：简单的加权融合、通过Stacking进行模型融合。LightGBM

2020-12-06 23:18:03 789

原创新闻推荐比赛学习——任务04——特征工程

特征工程特征工程简介简单来说就是从数据中提取有用的信息，然后将其显性表达出来，好的特征工程需要融合专业领域知识、直觉和基本的数学能力。本质上来说，呈现给算法的数据应该能拥有基本数据的相关结构和属性。即将低维数据抽象为高维向量，然后在高维向量中抽取可以表达数据主要属性或结构的向量构成呈现给算法的数据。特征工程起始就是把数据的属性转换为数据特征的过程，在数据建模时，如果对原始数据所有的属性进行学习，并不能找到数据的潜在趋势，而当通过特征工程对原始数据进行处理后，算法模型可以显著减少噪声的干扰，而更益

2020-12-03 21:05:31 308 1

转载新闻推荐task03

多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上图只是一个多路召回的例子，也就是说可以使用多种不同的策略来获取用户

2020-12-01 03:09:08 265

转载新闻推荐 task03

多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上图只是一个多路召回的例子，也就是说可以使用多种不同的策略来获取用户

2020-12-01 03:08:05 287

转载新闻推荐task03-转载

转载 datawhale多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上图只是一个多路召回的例子，也就是说可以

2020-11-30 16:46:52 162

原创 EDA

新闻推荐：task-02 数据分析数据分为训练集用户日志和测试机用户日志，新闻信息，文章词向量。数据分析的价值：熟悉整个数据集的基本情况，即每个文件中有哪些数据，具体的文件中每个字段所表示的实际含义，数据集特征之间的相关性。针对于新闻推荐来说，主要需要分析的有用户自身的一个状态，用户与文章的关系，文章与文章之间的相关性，文章本身的基本属性，分析这些属性有助于后面召回策略的选择及特征工程的具体方向。导入函数库%matplotlib inlineimport numpy as npimpo

2020-11-28 01:44:22 350

原创新闻推荐算法 task-02 数据分析

新闻推荐：task-02 数据分析数据分为训练集用户日志和测试机用户日志，新闻信息，文章词向量。数据分析的价值：熟悉整个数据集的基本情况，即每个文件中有哪些数据，具体的文件中每个字段所表示的实际含义，数据集特征之间的相关性。针对于新闻推荐来说，主要需要分析的有用户自身的一个状态，用户与文章的关系，文章与文章之间的相关性，文章本身的基本属性，分析这些属性有助于后面召回策略的选择及特征工程的具体方向。导入函数库%matplotlib inlineimport numpy as npimpo

2020-11-27 19:05:21 762

原创新闻推荐系统协同过滤编码思路笔记

基于新闻推荐系统组队学习baseline代码思路笔记。新闻推荐赛题：目的：通过平台已有的文章库和用户点击日志库数据进行预测用户未来点击的文章。思路：寻找和用户已点击过的文章相似的文章，可以通过构建文章之间的相似度矩阵来确定每篇文章的相似文章，然后通过寻找用户已点击过的文章所相似的文章解空间，对解空间文章进行排序，又因用户日志为时序数据，为此可以考虑使用RNN类网络进行学习用户点击本篇文章之后每篇文章的一个点击概率。内存减少函数：原理是根据数值的分配内存缩减为实际内存。获取处理开始时间，定义数值类型

2020-11-25 18:26:09 443

原创随机森林增量学习 bug错误提示广播机制有问题

问题未解决问题描述：使用sklearn中随机森林函数进行增量学习，第一次训练：设置随机森林参数n_estimators = 10， warm_start = True，训练小样本容量数据，可正常训练并预测分类；第二次训练：设置参数n_estimators = 20, 数据规模大幅增加，生成bug，无法生成预测结果，错误信息：ValueError: operands could not be broadcast together with shapes (50,3) (50,2) (50,3)。问题

2020-08-20 01:56:19 612 1

原创 kaggle官方教程函数小抄

Kaggle 学习笔记标题机器学习数据处理数值型缺失值//1.删除缺失值所在的行X_full.dropna(axis=0, subset=['SalePrice'], inplace=True)y = X_full.SalePriceX_full.drop(['SalePrice'], axis=1, inplace=True)//2.保留数值型数据X = X_full.select_dtypes(exclude=['object'])X_test = X_test_full.selec

2020-08-11 20:22:08 222

空空如也

空空如也