武大超算使用记录

超算中心简介

网址:http://hpc.whu.edu.cn
操作系统:x86_64架构的64位CentOS 7.5 Linux
GPU集群:400块Nvidia Tesla V100,峰值计算能力3000万亿次/秒,100G OPA互联

申请流程

老师和学生分别申请免费账户,通过后会收到邮件,邮件里提供了用户名、ip和初始密码,然后参照http://hpc.whu.edu.cn/sjfw/ffsq.htm 发送申请表到官方邮箱,所属超算用户填写老师的用户名,超算用户填写学生的用户名,申请通过后会收到邮件,记得加入官方qq群137281704

用户空间介绍

home 1G 储存环境变量 长期保存
project 1TB 项目文件和运行作业
workfs 3TB 超过3个月会自动清理, 建议不用

磁盘查询命令

lfs quota -uh jrhu /home/jrhu
lfs quota -uh jrhu /project/jrhu

fee

校内用户 0.06 元/核/h ; 1 元/卡/h
算上cpu 基本一卡一小时 2.5元

login node

202.114.96.180

file node

千兆带宽的传输节点 202.114.96.177

常用命令

使用gpu

srun -A panjun --gres=gpu:1 -p gpu -u python train.py

查看残留进程

非常重要 没事就检查一下

squeue -u jrhu

kill 残留进程

scancel <job id>

查看预装软件

module avail

soft link

data download workplace .cache .conda .ipython .torch
比如

ln -s project/data data
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
武汉大学发布的数据集可能有很多种,这里以常见的文本分类数据集THUCNews为例,介绍一下如何使用。 1. 下载数据集 可以在THUCTC网站上找到下载链接,下载压缩包后解压得到数据集。 2. 数据集简介 THUCNews数据集包含74个主题,共计21万篇新闻文本数据。其中训练集和验证集各18万篇,测试集5万篇。每篇文本带有一个标签,表示它所属的主题。标签编号从0到73,共计74个。 3. 数据集格式 数据集以txt格式存储,每行一个样本,每行以“\t”分割为文本和标签两部分。例如: ``` 中新网 12 月 31 日电 (记者 张 邦 天) 据 美国 《 大西洋 月刊 》 网站 报道 , 2014 年 是 世界 上 历史 上 最 安全 的 一 年 , 但 也 是 最 危险 的 一 年 。 时政 ``` 其中,第一部分是文本,第二部分是标签。 4. 代码示例 可以使用Python的Pandas库来读取数据集。代码示例如下: ```python import pandas as pd # 读取文件 train_df = pd.read_csv('THUCNews_train.txt', sep='\t', header=None, names=['text', 'label'], dtype={'text': str, 'label': int}, encoding='utf-8') val_df = pd.read_csv('THUCNews_val.txt', sep='\t', header=None, names=['text', 'label'], dtype={'text': str, 'label': int}, encoding='utf-8') test_df = pd.read_csv('THUCNews_test.txt', sep='\t', header=None, names=['text', 'label'], dtype={'text': str, 'label': int}, encoding='utf-8') # 打印数据集信息 print('Train set: ', len(train_df)) print('Val set: ', len(val_df)) print('Test set: ', len(test_df)) print(train_df.head()) ``` 这段代码会读取THUCNews的训练集、验证集和测试集,并打印出数据集信息和前5条样本。 5. 数据集使用 使用THUCNews数据集进行文本分类任务时,可以按照以下步骤进行: 1)对文本进行分词 可以使用jieba库对文本进行分词,得到分词后的文本。 2)构建词表 将分词后的文本构建词表,将每个词映射为一个数字。 3)将文本转化为数字序列 将分词后的文本转化为对应的数字序列,以便输入模型。 4)构建模型 使用深度学习框架(如TensorFlow、PyTorch等)构建文本分类模型。 5)训练模型 使用训练集对模型进行训练,并在验证集上进行验证。 6)评估模型 使用测试集对模型进行评估,计算模型的准确率、精确率、召回率和F1值等指标。 6. 注意事项 - 数据集可能包含一些错误或异常数据,需要进行数据清洗和预处理。 - 分词和构建词表的方法可能会影响模型的性能,需要根据实际情况进行选择和调整。 - 模型的选择和训练方法也会影响性能,需要进行实验比较和调优。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值