DL路人甲-CSDN博客

原创 Ubuntu配置AlphaFold过程

文章目录安装Nvidia Docker注意安装对应的GPU驱动安装docker与NVIDIA Container Toolkit下载代码下载数据集注意数据集目录结构常规下载手动下载超常规手动下载额外处理配置环境运行Demo坑坑坑坑坑1. docker中的一些目录挂载出错。坑2. 运行时提示`ValueError: jaxlib is version 0.1.69, but this version of jax requires version 0.1.74.`坑3 运行时报错，提示FileNotFoun

2022-01-21 04:16:34 2933 4

原创 python中主流压缩矩阵存储效率对比（更新中）

尝试对矩阵的各种输出方式的效率进行对比

2021-12-13 03:18:00 1265

原创在Ubuntu服务器中挂载Google网络硬盘

文章目录安装GDriveFS绑定Google账号如果能直接操作服务器的图形界面如果你是通过ssh连接服务器（无图形界面）挂载磁盘很多Ubuntu服务器会提供较小的存储空间，如果想在服务器上进行文件交换的工作就容易超容量。因此其实可以通过GDriveFS挂载Google网络硬盘。必要条件：你懂得安装GDriveFS分别在ssh中执行如下代码sudo apt-get install python-pipsudo apt-get install build-essential python-devs

2021-10-14 12:25:46 817

原创通过在群晖上安装虚拟机，实现群晖与115网盘的双向同步

文章目录准备工作下载镜像安装虚拟机套件开始安装配置套件映射网络驱动器群晖NAS虽然已经很强大了，但对于某些网盘与下载链接而言可能暂时没有很好的支持。其实只要在NAS中安装虚拟机便可很轻松的解决这种兼容性问题。准备工作下载镜像前往https://msdn.itellyou.cn/下载Windows镜像，出于资源节省的考虑，下载了Win7镜像。下载完毕后将镜像上传至群晖NAS中备用。安装虚拟机套件在群晖套件中心中搜索“Virtual Machine Manager”套件并安装，安装完毕后打开。

2021-07-29 23:38:07 11354 6

原创光猫安全性增强，另辟蹊径实现内网穿透

前几天家里的宽带被供应商免费升级后直接把公网ip干掉了，家里的服务器与群晖NAS也陷入半残的状态，好不容易有时间了尝试重建内网穿透。成功后记录此次重建的历程与配置内网穿透的新方法。文章目录问题分析取得光猫控制权默认配置被修改后夺权的办法尝试连接光猫尝试登录管理后台增加光猫的安全性（可选）内网穿透手动分配ip地址配置内网穿透端口转发（端口映射）DMZ主机（大招）问题分析既然是网络升级后掉了公网IP，那么基本就是网络硬件更改造成的，肯定还是要从运营商新拿来的光猫上下手，因此第一步想办法取得光猫的控制权.

2021-07-17 05:01:19 3950 1

原创对DataFrame数据进行截断

当有确定截断值时譬如最小值为0，或者最大值为1这种情况# 设定df的最小值为0cutoff_value = 0df.clip(lower=cutoff_value)# 设定df的最大值为1cutoff_value = 1df.clip(upper=cutoff_value)经过这么操作就能分别设定df的最小值或最大值，并按照对应的上下限进行截断。当截断值不确定时通过分位函数进行截断# 按照第3四分位数进行截断p = 0.75cutoff_value = data.qua..

2021-07-03 16:57:31 2398

原创两种实现Z-Score的方法

Z-Score是非常常用的规范化的方法，在模型训练的过程中，有两种方法可以实现不同目的的Z-Score：同一批数据（例如单纯的对数据进行转换）from sklearn.preprocessing import scaleimport numpy as npx = np.random.randint(0, 100, size=(3, 5))x_norm = scale(x)该方法的目的仅仅是用于计算单个数据集x的zscore，遇到不同的数据集（例如训练集与测试集）计算的zscore可能存在

2021-06-11 11:25:44 3319 2

原创 pytorch模型保存后性能不一致的原因

问题模型训练完成并保存后，再新的代码中再读取时预测结果变的不一致。可能的原因请检查随机种子是否被确定请检查模型的保存与读取是否正确如果这些检查都没有问题，请尝试在原始代码（训练完毕后，测试之前）中重新读取模型文件检查预测结果是否与之前一致。如果一致，说明很可能问题出在随机数上。随机数请务必检查代码中是否人为多次使用了随机数相关的代码，当随机种子被固定后，只是固定了随机数出现的顺序，而非固定了随机数例如当固定随机种子并多次产生随机数后，生成的随机数分别为1，3，4，8，10。无论重复多少次

2021-05-17 11:25:51 4399 4

原创英伟达3090 GPU Server Cuda配置过程

文章目录Cuda安装GPU驱动安装Cudnn安装PyTorch安装多用户共用同一个conda环境英伟达3090的配置过程与以往Cuda没有什么太大的区别，核心请注意目前仅Cuda11支持3090的卡。细节请参见Ubuntu 18.04 配置cudaCuda安装请先按照前述文章所述禁用nouveau与卸载GPU驱动。随后前往https://developer.nvidia.com/cuda-toolkit-archive下载Cuda 11，3090务必下载Cuda11.X！按照对应系统与版本进

2021-03-16 10:07:23 2994 1

原创 Ubuntu服务器无法默认进入Conda

问题描述：在服务器上配置完Conda环境等下次连接的时候不会默认进入Conda环境解决方案1：通过从SSH中进入Conda环境这篇文章手动进入即可解决方案2：该方法适合用于无论怎么设置，SSH连上之后死活就是不会自动进入Conda环境的情况。解决办法很简单，先完整卸载Conda环境，随后通过SSH连接服务器后，在SSH下重新安装、配置即可。该问题一般出现在能直接接触Linux服务器的人身上，如果直接在Linux服务器本地安装Conda，那么之后在SSH下可能就不会默认进入Conda环境。...

2021-02-08 14:49:03 909

原创在群晖上私密git配置教程

该方法的前提是拥有自己的git服务器（非github等），后续有时间会补充如何配置自己的专属服务器。文章目录创建GIT仓库在IDE中连接GIT（已有现成仓库）在IDE中克隆仓库创建GIT仓库使用SSH连接（须有群晖管理员权限）进入Git文件夹目录，建立git目录cd /volume1/MyGit/mkdir *.git进入新建的git目录，初始化cd *.gitgit init --bare设置目录权限sudo -icd /volume1/MyGit/chown 管理员账号.

2021-02-07 14:11:39 1244

原创 Dataframe修改列名引发的错误

问题描述先随机生成一个4*3的Dataframe，如图所示，列名分别为0，1，2：错误写法df.columns = [['a', 'b', 'c']] # 错误写法执行后编译通过，代码能正常运行，并且debug查看Dataframe也很正常：然而Dataframe中的数据早已损坏，无法正常使用。解决办法当使用df.columns进行列名修改时，切记后边直接跟列表即可，不要再对列表进行包装，如下所示：df.columns = ['a', 'b', 'c'] # 正确写法只有这么

2020-12-18 15:06:45 1199

原创解决NNI平台无法调用GPU，一直显示WAITING的问题

问题描述CUDA环境配置正常，代码直接运行时可以正常调用GPU，但通过NNI进行调参时一旦使用GPU就会卡在WAITING的状态不动。问题原因NNI框架在默认的情况下只会使用完全空闲的GPU进行运算，一旦GPU中存在其它进程（即使有时候可能只是一些系统进程）就会一直WAITING直到进程结束。解决办法其实很简单，在config.yml中添加如下代码即可：# 当trainingServicePlatform为local时添加如下语句localConfig: useActiveGpu: t

2020-12-17 14:35:57 2791 5

原创 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks

提出了一种简单有效的深神经网络半监督学习方法。基本上，所提出的网络是以有监督的方式训练，同时有标记和无标记的数据。对于未标记的数据，伪标签，只是选取具有最大预测概率的类，就好像它们是真的la-bels一样使用。这实际上相当于熵正则化。它支持类之间的低密度分离，这是半监督学习的一个常见假设。该方法在去除噪声的自动编码和丢失的情况下，优于传统的半监督学习方法，在MNIST-handrit-10位数据集上对非常小的标记数据进行半监督学习文章目录核心思想训练过程核心公式结论核心思想Pseudo-Label.

2020-11-27 14:42:49 1725 2

原创利用群辉稳定的向亚马逊S3存取文件

亚马逊的s3存储很方便，但AWSCLI控制台的操作总觉得不太直观，而且大文件下容易失败。如果有群辉NAS就能很方便的利用Cloud Sync套件进行数据同步。绑定打开群辉Cloud Sync套件，将云供应商拉到最下，选择S3 storage。随后输入自己的AWSAccessKeyId与AWSSecretKey，最后可以选择该账号下已有的存储桶，或是创建新的存储桶。随后需要对任务详情进行详细的配置，按照实际需求进行选择即可。随后设置完成，Cloud Sync便会按照任务计划进行同步，这个过程是

2020-11-24 16:29:34 1983

原创亚马逊S3的上传与下载与费用说明

文章目录前置要求准备创建存储桶生成安全凭证下载AWS管理器配置AWS管理器上传数据到S3存储桶中下载数据到本地费用总结（以新加坡地区为例）白嫖套餐数据传入数据传出互联网亚马逊AWS总结前置要求必须先拥有一个亚马逊AWS的账户准备创建存储桶在正式传输数据之前，我们需要先新建“存储桶”。进入亚马逊S3管理页面，点击创建存储桶。随后输入相关信息，千万记得存储桶名称的命名规则。存储桶名称只能由小写字母、数字、句点 (.) 和连字符 (-) 组成，并且在大区（aws（标准区域）、aws-cn（中国区域）

2020-11-20 15:45:36 5926

原创白嫖亚马逊AWS服务器

最近由于业务需求有一批数据需要通过AWS下载，恰好AWS有12个月免费计划，因此记录一下。前往AWS中国区网站点击创建AWS账户申请AWS账号，随后输入各项信息进行注册，随后登录，此处不再赘述。以下进行申请与使用切换服务器所在区域如果有特殊服务器区域要求，可以点击页面右上方很方便的进行切换，主要认准中文地区后边的地区编码即可。我们可通过启动EC2虚拟机快速的申请一台免费试用的服务器，白嫖用户请确保页面左侧“仅免费套餐”处于勾选状态。随后可以选择不同系统的服务器，本例以Ubuntu 18.04为

2020-11-17 12:20:48 11133

原创从SSH中进入Conda环境

有时候服务器端的开发环境配置好了，但SSH远程连接的时候没有办法进入Conda环境，显示“conda：未找到命令 ”。只需要在SSH终端中输入：echo 'export PATH="~/anaconda3/bin:$PATH"'>>~/.bashrcsource ~/.bashrc 即可成功进入conda环境，如下所示...

2020-11-12 17:39:39 4476 2

原创关于numpy中填充nan的bug

numpy中nan_to_num()函数能很方便的将nan、inf值填充成统一的值。但在实际使用的时候发现有时候nan值怎么都填充不了，不确定是不是bug，但还是会影响开发进度，所以记录一下。填充后的矩阵如下图所示：检查代码后发现是因为数据中混入了一些str格式的数据，当矩阵中的元素不全是数值类型时，nan_to_num()是不会对矩阵元素进行处理的。解决办法：将str的字符处理掉再进行填充操作，随后填充结果就正常了，如下图所示：...

2020-11-12 14:57:18 1378

原创利用numpy保存dict

dict是非常方便的数据结构，但传统dict的保存与读取操作比较麻烦。其实可以利用numpy非常方便的对dict进行保存与读取：import numpy as npnp.save("data.npy", data) # 保存data = np.load("data.npy", allow_pickle=True).item() # 读取这样便能将dict保存成文件，并且从文件中还原dict了。...

2020-07-08 14:17:52 5018

原创 PyTorch中Cross Entropy Loss的用法与背景

文章目录重点提示使用场景公式数学背景用法重点提示注意，PyTorch的Cross Entropy Loss与其它框架的不同，因为PyTorch中该损失函数其实自带了“nn.LogSoftmax”与“nn.NLLLoss”两个方法。因此，在PyTorch的Cross Entropy Loss之前请勿再使用Softmax方法！使用场景当现在面临多分类问题（不限于二分类问题）需要Loss函数时，Cross Entropy Loss是一个很方便的工具。公式loss(x,class)=−log⁡(exp⁡

2020-07-07 18:45:51 5232 1

原创为DataFrame中的一列数据添加前/后缀

将DataFrame的列视为str，随后利用str的连接操作即可。 # 添加前缀 newDF = strs + oldDF[col].astype('str') # 添加后缀 newDF = oldDF[col].astype('str') + strs若其余位置需要添加代码类似，可直接按照字符串的操作进行切片与拼接。...

2020-07-06 14:31:54 9031 1

原创 R语言安装生物分析包

R语言版本高于3.5的时候，生物计算相关的包需要通过额外的包管理器进行安装与管理BiocManager官网在终端中输入如下语句安装BiocManagerif (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install()安装完毕后便可通过BiocManager管理包了，比如当前需要安装DESeq2与limma包与，代码为：BiocMana.

2020-06-30 11:14:39 2487

原创在 WSL 2 中启用 NVIDIA CUDA

在微软最新发布的 Windows Insider 预览版本中，WSL2 获得了 GPU 计算支持。这意味着 Linux 二进制文件可以利用 GPU 资源，在 WSL 中进行机器学习、AI 开发或是数据科学等工作。微软在今年五月份的 Build 2020 大会上宣布了 WSL 对 GPU 计算的支持，对这项功能的需求在社区中一直拥有很高的呼声。目前，需要在WSL中启用GPU支持需要加入Windows 预览版 SDK，以下为具体步骤。从该处成为Win预览体验成员。或是在win10系统设置-更新和安全-W.

2020-06-22 11:57:29 17940 19

DL路人甲的博客

原创 Ubuntu配置AlphaFold过程

原创 python中主流压缩矩阵存储效率对比（更新中）

原创在Ubuntu服务器中挂载Google网络硬盘

原创通过在群晖上安装虚拟机，实现群晖与115网盘的双向同步

原创光猫安全性增强，另辟蹊径实现内网穿透

原创对DataFrame数据进行截断

原创两种实现Z-Score的方法

原创 pytorch模型保存后性能不一致的原因

原创英伟达3090 GPU Server Cuda配置过程

原创 Ubuntu服务器无法默认进入Conda

原创在群晖上私密git配置教程

原创 Dataframe修改列名引发的错误

原创解决NNI平台无法调用GPU，一直显示WAITING的问题

原创 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks

原创利用群辉稳定的向亚马逊S3存取文件

原创亚马逊S3的上传与下载与费用说明

原创白嫖亚马逊AWS服务器

原创从SSH中进入Conda环境

原创关于numpy中填充nan的bug

原创利用numpy保存dict

原创 PyTorch中Cross Entropy Loss的用法与背景

原创为DataFrame中的一列数据添加前/后缀

原创 R语言安装生物分析包

原创在 WSL 2 中启用 NVIDIA CUDA

原创数据分析工具pandas-profiling使用说明

原创 python代码打包与加密

原创 PyCharm开荒

原创 Endnote X9开荒

原创 GitHub查看浏览, 下载次数

原创重新安装GPU驱动, Cuda前的清理工作

原创 GCC降级

原创 Ubuntu永久修改DNS

原创 Ubuntu 18.04 配置cuda

原创 PyCharm新建文件头

原创 PyTorch安装

pandas-profiling-master.zip

空空如也