IFTICing-CSDN博客

原创【基础解读】初见Transformer

train的时候会看到真实答案。

2024-07-22 11:37:54 69

原创【基础解读】初见Self-Attention（注意力机制）

可见最终的O与最初的I形状一致，因此可以循环多次self-attention，将O作为下一次attention的input。自己理解为，再次强化融入了attention之后的I的attention，hh orz。

2024-07-19 11:22:58 217

原创【文献阅读】BotCS: A Lightweight Model for Large-scale Twitter Bot Detection Comparable to GNN-based Model

GNN的结构复杂性在大规模数据上带来了更多的训练成本和可解释性问题。本文提出BotCS，它利用社交图的属性和结构特征，比基于GNN的检测方法具有更小的计算成本。BotCS使用一个简单的多层感知器分类器（MLP）进行基础预测，然后将训练集的分类残差传播到其他节点进行修正。接着，通过标签传播平滑修正后的预测。由于只需少量的端到端训练，这个过程成本低且具有可扩展性。分析了机器人和人类用户之间的本地交互模式，并从本地角度设计了相应的残差传播和平滑规则，确保了BotCS的可解释性。

2024-07-18 17:31:59 601

原创【文献阅读】Social Bot Detection Based on Window Strategy

机器人发帖的目的是在不同时期宣传不同的内容，其发帖经常会出现异常的兴趣变化、而人类发帖的目的是表达兴趣爱好和日常生活，其兴趣变化相对稳定。提出了一种基于窗口策略（BotWindow Strategy）的社交机器人检测模型基于兴趣变化检测社交机器人。

2024-07-17 20:44:14 381

原创【文献阅读】Adaptive Mixture of Domain-aware Experts for Detecting Social Bots

领域感知社交机器人检测方法（DSBD，Domain-aware SocialBot Detection）—— 首先使用基于提示的方法进行零样本领域分类，以获取任何用户的准确领域分布。通过领域门聚合多个领域专家的表示，使用融合后的表示进行分类。

2024-07-17 19:10:31 1084

原创【文献阅读】Friendship Preference: Scalable and Robust Category of Features for Social Bot Detection

通过比较当前节点的邻居的每种特征在其邻居中的分布，与随机一个用户子集中该种特征在其子集中的分布的相似性，来作为本文所提的“友谊偏好”。其余类别的特征是从被调查账户及其邻居发布的内容中提取的。基于邻居的特征是稳健的，因为恶意用户无法控制大多数追随者的属性和行为，使其与人类账户的追随者保持相似；大多数基于图的特征的计算成本很高，因为恶意用户难以通过改变其在社交图中的位置来规避基于图的特征；大多数个人资料属性是由用户直接设置的，通过更改其个人资料属性来规避这些特征是直接的；

2024-07-17 16:21:41 497

原创【文献阅读】CGNN: A Compatibility-Aware Graph Neural Network for Social Media Bot Detection

现有基于GNN的社交机器人检测方法往往未能考虑社交媒体上下文中用户之间的异质关联，特别是网络中社交机器人与人类社区的异质整合。这使得从不同邻居聚合信息成为导致两种用户类型之间最终用户表示缺乏差异性。现有GNNs在提高属于同一类别但表现出不同邻居偏好的节点性能方面仍存在困难。多样连接模式：一些社交机器人表现出紧密的连接，而另一些主要是网络机器人，则频繁与人类用户互动。这种差异强调了对社交媒体用户进行全面画像的必要性。基于马尔科夫随机场：可以概括为各种术语之间的关联。

2024-07-14 20:41:24 924

原创【文献阅读】Dispelling the Fake: Social Bot Detection Based on Edge Confidence Evaluation

传播虚假信息用于：选举、金融、医疗与真实账户互动的高级机器人，在与真实账户的互动中，导致图结构包含伪装和不可靠的边缘。这些不可靠的边缘干扰了机器人和人类表示之间的区分。基于边缘置信度评估（BECE, Bot detection method based on Edge Confidence Evaluation）的社交机器人检测方法：其中的边缘置信度评估模块，用于评估边缘的可靠性并识别不可靠的边缘。基于用户节点的表示为边缘设计特征，并引入参数化高斯分布，将边缘嵌入映射到潜在语义空间。

2024-07-11 20:47:29 758

原创【代码解读】torch_geometric.nn.RGCNConv

x_l = x[0]else:x_l = xx_r = x[1]x_l 表示源节点特征，如果 x 是元组，则取第一个元素，否则直接赋值为 x。如果 x_l 为 None，则生成一个范围在 0 到 self.in_channels_l - 1 的张量。x_r 表示目标节点特征，如果 x 是元组，则取第二个元素，否则直接赋值为 x_l。

2024-07-04 19:16:59 590

原创基分解（Basis Decomposition）和块对角分解（Block-Diagonal Decomposition）

在图卷积神经网络（Graph Convolutional Network, GCN）中，尤其是关系图卷积网络（Relational Graph Convolutional Network, RGCN），参数数量通常会随着关系数量的增加而迅速增长。这导致模型变得非常复杂，并且容易过拟合。为了缓解这个问题，引入了两种正则化技术：基分解（Basis Decomposition）和块对角分解（Block-Diagonal Decomposition）。

2024-07-02 09:25:40 137

原创【代码解读】BotRGCN

将模型设置为评估模式。这个步骤会通知模型在进行前向传播时不启用 dropout 和 batch normalization 等训练时才用到的层。output.max(1)[1] 获取每个样本预测的类别索引（即概率最大的类别）计算 ROC 曲线和 AUC（Area Under Curve）值。ROC 曲线是以假阳性率（FPR）为横轴，真阳性率（TPR）为纵轴绘制的曲线，AUC 是曲线下的面积。为描述、推文、数值属性和类别属性定义线性层和 Leaky ReLU 激活函数。

2024-06-27 16:21:11 392

原创 Inductive Learning 和 Transductive Learning

2024-06-18 09:49:36 282

原创评估分类模型性能的常用指标

2024-06-18 09:46:28 65

原创【代码解读】torch_geometric.nn.GCNConv

cached_edge_index 和 _cached_adj_t 是用于缓存边索引和邻接矩阵的变量，防止在每次前向传播时重复计算。dtype):passdtype):pass通过 @torch.jit._overload 装饰器，定义了两个重载函数的签名，支持不同类型的 edge_index 输入。

2024-06-13 09:26:51 991

原创传染病CA

【代码】传染病CA。

2024-05-23 11:33:30 91

原创【保姆级】Linux安装anaconda+pytorch+cuda+cudnn+pyg

检查系统架构。

2024-04-26 11:23:17 640 2

原创日志2024.1.4/5（train_text.py）

【代码】日志2024.1.4/5（train_text.py）

2024-01-06 16:46:28 811

原创 2024.1.1（随笔记录）

需选择性注释掉train_models.py中的"Add local-rewire and fine-tune"，之后在train_models.sh中修改dataset、model_name、k。提升攻击效果的方式：global，local，global+local，orig。测试模型： GCLSTM，EvGCNH，EvGCNO，DySAT。四种攻击：random，degree，greedy，TDAP。数据集：radoslaw, opsahl-ucsocial。

2024-01-01 11:25:13 351

原创 Ubuntu首次执行.sh文件（Permission denied）

如果文件没有执行权限，可以使用chmod命令添加执行权限，然后使用ls -l检查权限是否已经添加。

2023-12-29 16:42:26 529

原创日志2023.12.21（待处理/get_label/get_split/get_edge/combine）

【代码】日志2023.12.21（待处理/get_label/get_split/get_edge/combine）

2023-12-21 21:00:38 356

原创日志2023.12.17/18（id_tweet/tweets_embedding/get_tweet/calc_activate_day/get_profile）

在 Pandas 中，pd.read_json 函数的 lines 参数默认为 False。当 lines 设置为 False 时，函数假设整个文件是一个有效的 JSON 对象，而当 lines 设置为 True 时，函数会假设每行都是一个独立的 JSON 对象。#lines为true时才能用chunksize=batch_size。两次stack得到的是如上所示的结果。一次stack得到的是如上所示的结果。

2023-12-17 22:21:37 348 1

原创日志2023.12.14/15（get description）

【代码】日志12.14/15（preprocess）

2023-12-17 09:22:10 325

原创日志2023.12.13（node.json/get description）

【代码】日志2023.12.13。

2023-12-13 16:37:31 308

原创集群操作指南

【代码】公共集群。

2023-11-09 10:07:00 46

原创 IEEE Transactions on Computational Social Systems（CSS）投递记录（步骤+投递时间线记录）

结果显示我的打包文件有5处Warning，我download了在线编译的latex论文发现和我本地编译的没有差错，所以我无视了Warning（无非是标签重定义之类的），直接提交了。之后，选择目标期刊，这里是trans CSS，把已经打包的文件提交到该页面，稍等片刻后即可查看在线验证结果，这里我大概等了三分钟。这里需要注意的是，论文可以是Word文档或Latex文档，但要注意的是仅能提交一个单独的文件。若拟提交的论文为Latex格式，这里注意，需要把源文件打包提交，并额外单独提交一份生成的PDF。

2023-04-16 20:58:28 3307 21

原创王牌花色（shape of my heart）

题目描述(时间限制: 1Sec 内存限制: 128MB)玩家1和玩家2各出一张牌，看谁大。如果两张牌都不是王牌花色或则都是王牌花色，则牌面大的牌大，如果牌面一样大则一样大。若其中一张牌是王牌而另一张不是，则无论牌面如何都是王牌花色大。输入第一行一个数字n，代表数据组数(n <= 10)。对于每组数据，首先输入一个字符(S\H\D\C)，表示王牌花色。接下去一行有...

2020-02-27 10:51:38 662

原创自定义函数之整数处理（含特殊测试）

题目描述输入10个整数，将其中最小的数与第一个数对换，把最大的数与最后一个数对换。写三个函数； ①输入10个数；②进行处理；③输出10个数。输入–10个整数在这里插入代码片...

2020-02-16 10:53:11 370 2

weixin_42726068的博客