社交网络常用数据集

复杂网络的研究很多都离不开数据集,下面这些是个人在做科研的过程中在互联网上搜集到的一些数据集网站,列举出来也方便同行们去使用。(2018年12月14日更)
1、http://vladowiki.fmf.uni-lj.si/doku.php?id=pajek:data:urls:index
数据集网站集合。这个网站中列出来很多数据集网站,非常全,其中的很多网站数据描述详细,而且数据可以直接下载,大家可以从中选出一些网站收藏起来。
2、http://snap.stanford.edu/data/
这个是斯坦福大学的大型网络数据集网站,大家应该比较熟悉了。
3、http://konect.uni-koblenz.de/
这个网站是我个人最喜欢也是最常用的网站,里面数据集有上百种,数据的分类和描述真的是特别详细,而且还给出了数据集的可视化图以及一些基本统计特性,所有数据均可以直接下载。
4、http://networkrepository.com/index.php
这是另一个个人特别喜欢也是很常用的网站,和上面一样数据分类也是相当的详细,而且数据都可以在线可视化,大家应该能找到自己想要的数据。
5、http://gdm.fudan.edu.cn/GDMWiki/Wiki.jsp?page=Network%20DataSet
这是复旦大学建立的网络数据集网站,里面有一些常用数据集以及一些相关资源网站。
6、https://www.aminer.cn/data-sna#Twitter-Dynamic-Net
搞数据挖掘应该都或多或少知道Aminer和唐杰,这是Aminer上的一些社交网络数据集。
7、https://toreopsahl.com/datasets/
这个网站里面有十几个数据集,包含社交网络、交通网络、合作网络等常用数据集。
8、http://netwiki.amath.unc.edu/SharedData/SharedData
这个网站列出了一些数据集以及一些复杂网络大牛的个人数据网站,大家可以去看看。
9、http://vlado.fmf.uni-lj.si/pub/networks/data/
这个是Pajek网站提供的数据集,里面的数据都很经典,复杂网络早期研究中很多数据集都是源于这里。
10、http://socialcomputing.asu.edu/pages/datasets
社交网络数据集,里面包含国内外一些常用在线社区网站的数据集,中型到大型的数据规模,搞社会计算的同行可能用的比较多。
11、http://www.sociopatterns.org/datasets/
另一个社交网络数据集,这里面的数据集更多倾向于实体网络,比如联系网、高校朋友网、疾病传播网。
12、http://www-personal.umich.edu/~mejn/netdata/
大牛Newman教授的个人数据网站,里面的数据集特别是科学家合作网络,用到特别多。
以上是一些个人用到比较多的复杂网络数据网站,鉴于自己的了解有限,可能对这些数据集网站给出的描述还不够详细,而且很多单位都没有列出来,敬请谅解。当然了如果想用里面的数据集,一定要记得引用数据集作者们的信息,他们收集数据并公开方便大家使用也是很不容易的。如果转载本文,也请注明出处_.
补充说明:如果具备以下两个技能,构造复杂网络数据集将会变得简单:
(1) 文本处理(尤其是正则表达式)。因为很多原始数据包含很多冗余信息,可以运用文本处理来提取自己想要的关键信息,并在此基础上构造节点和连边关系。
(2) 网络爬虫。有时候从网络上根本找不到想要的现成数据,这时可以运用网络爬虫去爬取数据来构造复杂网络。
————————————————
版权声明:本文为CSDN博主「Mordor Boy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/MordorBoy/article/details/103903589

### 社交网络数据集的数据增强方法和技术 社交网络数据通常具有复杂的关系结构和丰富的语义信息,因此其数据增强技术也需考虑这些特性。以下是几种常见的用于社交网络数据集的数据增强方法: #### 1. 节点属性扰动 节点属性扰动是一种通过修改节点特征来生成新样本的方法。可以通过添加噪声、删除部分特征或替换某些特征值实现这一目标。这种方法适用于节点特征较为稀疏的情况[^1]。 ```python import numpy as np def add_noise_to_features(features, noise_level=0.1): """ 对节点特征矩阵添加高斯噪声。 :param features: 原始节点特征矩阵 (numpy array) :param noise_level: 噪声强度比例 :return: 添加噪声后的特征矩阵 """ noise = np.random.normal(0, noise_level, size=features.shape) noisy_features = features + noise return noisy_features.clip(min=0) # 防止负数特征 ``` #### 2. 边缘采样与重连 边缘采样是指随机移除一定数量的边并重新连接新的边,从而改变图的整体拓扑结构。这种操作可以模拟真实世界中动态变化的社交关系网[^2]。 #### 3. 子图提取 子图提取是从原始图中选取若干个互不相连的小区域作为独立的新图实例。此方式特别适合处理大规模社交网络场景下的分类任务或者异常检测等问题。 #### 4. 文本内容扩充 如果社交网络中的节点附带了文本描述,则可利用自然语言处理技术对其进行扩展。比如采用同义词替代法增加词汇多样性;或是借助预训练好的语言模型生成相似但不同的句子表达形式。 #### 5. 图增强框架应用 近年来也有专门针对图结构设计的一些通用型增强工具包被开发出来,像PyGCL就是一个基于 PyTorch Geometric 的对比学习库,在其中包含了多种现成可用的图级别以及节点级别的增强变换函数。 ```python from pygcl.transforms import RandomNodeMask transform = RandomNodeMask(p=0.1) # 设置掩码概率为10% augmented_data = transform(data) # data 是输入的 Data 对象 ```
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值