数据预处理
简单数据预处理
Bug永流传
这个作者很懒,什么都没留下…
展开
-
2020-12-17
Node2vec与DeepWalk的区别DeepWalk在相邻边之间随即游走时,相邻边所给定的边权不进行处理;Node2vec在相邻边之间随机游走时,边权会进行处理,上一次游走过的node与现阶段节点之间的权重会除以一个权重p,通常这个p大于1,现阶段相邻边上的节点若与上一次有走过的node之间存在边,就按原权重进行处理,若不存在边,则给边权除以权重q,通常这个权重小于1。...原创 2020-12-17 19:25:59 · 166 阅读 · 0 评论 -
关于pytorch中Dataloader使用参数num_workers报错的原因
未将主运行程序放在if __name__ == '__main__':之下导致调用出错而dataloader本质上是使用多进程来进行程序的加速,而python在调用多进程程序时如果不将主程序加入if __name__ == '__main__':下,子线程就会无限调用多线程程序,导致最后程序崩溃,因此要加入if __name__ == '__main__':进行声明。...原创 2020-12-16 11:17:29 · 4271 阅读 · 1 评论 -
python正则表达整理
python正则表达整理一、常见匹配规则表模式描述\w匹配字母数字及下划线\W匹配非字母数字及下划线\s匹配任意空白字符,等价于 [\t\n\r\f]\S匹配任意非空字符\d匹配任意数字,等价于 [0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串\z匹配字符串结束\G匹配最后匹配完成的位置\n匹配一个换行符\t匹配一个制表符^匹配原创 2020-07-25 21:50:16 · 188 阅读 · 0 评论 -
pandas 读取CSV数据
1. 数据分批读取df_train_org = pd.read_csv(train_file, chunksize = 10000000, iterator = True)df_test_org = pd.read_csv(test_file, chunksize = 10000000, iterator = True)for chunk in df_train_org: #每一个ch...原创 2020-01-20 13:06:04 · 369 阅读 · 1 评论