图灵生信-CSDN博客

原创基于Pytorch，从头开始实现Transformer（编码器部分）

GPT-3，BERT，XLNet这些都是当前自然语言处理（NLP）的新技术，它们都使用一种称为 transformer 的特殊架构组件，这是因为，transformer 这种新机制非常强大，完整的transformer 通常包含三个结构：scaled dot-product attentionself-attentioncross-attentionmulti-head attentionpositional encoding

2023-02-22 16:10:36 1818 1

原创常见几种简单的深度学习算法在生物医学数据领域的特点和不足

在实际数据分析与模型构建过程中，往往需要根据实际项目背景、数据逻辑、数据质量等选择最合适的算法。切忌盲目追求高大上的算法模型。通过表格的形式，总结了常见几种简单的深度学习算法在生物医学数据领域的特点和不足（

2024-08-23 16:05:17 1077

原创基于预训练模型，进行氨基酸序列编码，用于深度学习模型构建

在对氨基酸序列数据进行深度学习模型构建时，首先需要将字符形式的序列数据进行编码操作。最简单的当然是One-hot编码，但会引入稀疏性问题。这里提供一种基于预训练模型的编码方法

2024-08-23 15:40:49 409

原创 python脚本：输入基因名，通过爬虫的方式获取染色体上的location。

python脚本：输入基因名，通过爬虫的方式获取染色体上的location。

2024-08-23 15:33:09 446

原创 Python读取fasta格式数据成为字典形式。

Python读取Fastq格式数据成为字典形式。

2024-08-23 15:29:17 351

原创 flask和Vue3的前后端数据传输

这样基本上就能拿到服务端的数据，也能从客户端提交数据到服务端。后端就采用flask的一般构建方法，然后用。执行后，也就在本地有了一个服务端。构建一个接口，接口返回为json数据。为了解决跨域请求的问题，还需要在。// 用post请求。

2023-07-06 15:02:18 2002

原创解决flask （flask-restful）中文乱码问题

问题描述：当用flask-restful 写了个接口，返回给前端数据中带有中文时，发现中文乱码。上面的两个参数，中文没有再乱码。

2023-07-06 14:01:25 1062 1

原创在flask中，用bootstrap5对表单进行渲染。一个简单的示例

参考链接：https://bootstrap-flask.readthedocs.io/en/stable/macros/#render-form2. 基于wtf，做一个Form其实就是继承类，然后创建字段。3. 做一个视图函数，并将 Form 传入模板4. 模板注意看，下面这个模板，有几点：来看看实际效果

2023-06-14 15:50:09 830

转载手撸深度学习中常用的激活函数

如果使用线性激活函数，那么输入跟输出之间的关系为线性的，无论神经网络有多少层都是线性组合。使用非线性激活函数是为了增加神经网络模型的非线性因素，以便使网络更加强大，增加它的能力，使它可以学习复杂的事物，复杂的表单数据，以及表示输入输出之间非线性的复杂的任意函数映射。输出层可能会使用线性激活函数，但。

2023-02-28 17:28:28 222

原创手撸交叉熵损失函数Cross-entropy loss function

**损失函数**是用来评价模型的**预测值**和**真实值**不一样的程度。损失函数越好，通常模型的性能也越好。损失函数分为**经验风险损失函数**和**结构风险损失函数**：- 经验风险损失函数是指预测结果和实际结果的差别。- 结构风险损失函数是指经验风险损失函数加上正则项。

2023-02-28 16:15:32 1507

转载 L1、L2正则化和过拟合（转载）

L1正则化是指权重矩阵中各个元素的绝对值之和，为了优化正则项，会减少参数的绝对值总和，所以L1正则化倾向于选择稀疏(sparse)权重矩阵（稀疏矩阵指的是很多元素都为0，只有少数元素为非零值的矩阵）。L1正则化主要用于挑选出重要的特征，并舍弃不重要的特征。L2正则化是指权重矩阵中各个元素的平方和，为了优化正则项，会减少参数平方的总和，所以L2正则化倾向于选择值很小的权重参数（即权重衰减），主要用于防止模型过拟合。是最常用的正则化方法。一定程度上，L1也可以防止过拟合。

2023-02-27 15:53:05 369

转载【SimpleITK】CT数据的3D space归一化

即 channel为150。

2023-02-01 15:26:21 328

转载 nnUNet源码解读（二）：nnUNet数据预处理crop方法

dddd

2023-01-31 14:34:40 789

原创 nnUNet源码解读（一）：数据维度变换

最近用到 nnUNet 这个框架做了一个影像分割的项目。正好学习一下这个框架的源码。我的电脑是ubuntu，已经安装好了nnUNet框架，并且按照作者提供的的步骤，对相应步骤的原码进行解读。使用到数据也是作者在文档中提供的前列腺（prostate）数据集，下载地址：https://drive.google.com/drive/folders/1HqEgzS8BV2c7xYNrZdEAnrHk7osJJ–2只是记录我读源码的过程，所以文档格式很乱，也可能有错误。

2022-12-16 15:03:22 1705

转载简单尝试使用迁移学习进行图像分类（VGG、Resnet）

考虑到VGG16要求图像的形状为（224,224,3），即像素为224x224的彩色图像，因为我准备用这个数据集进行实验。所谓的应急车辆包括：警车、消防车和救护车。在数据集中有一个，用来存放训练样本的标签。数据集下载:百度云下载链接提取码: quia我们自定义一个卷积神经网络模型，用该数据集进行训练。得到的模型结果作为baseline，与迁移学习的模型进行比较。模型训练结果如下：在这个案例中，使用迁移学习能够明显提高模型性能。

2022-09-07 19:00:37 1854 1

原创图神经网络（2）：基于DGL实现GCN算法

通过框架，自定义图卷积层（GCN）。需要掌握“如何使用DGL”实现图卷积算法。

2022-06-09 19:42:04 1941 1

原创图神经网络（1）：DGL基础

笔记是直接从Jupyter 保持下来的，格式会比较乱，主要是给自己看的。1. 构建图导入依赖库import dglimport torchimport numpy as np1.1 构建图src_idx = np.random.randint(0,3,5) # sorce nodes iddst_idx = np.random.randint(0,3,5) # destination nodes idG = dgl.graph((src_idx, dst_idx)) # con

2022-05-29 12:29:10 1239

原创自动化特征选择

高维度的数据集可能使模型变得更加复杂，从而增大过拟合的可能性。在处理高维数据集时，最好将特征的数量减少到只包含最有用的那些特征，并删除多余特征。这样会得到泛化能力更好、更简单的模型。删除噪声特征可以提高模型性能。特征提取有三种基本策略：（1）单变量统计（univariate statistics）；（2）基于模型的选择（model-based selection）；（3）迭代选择（iterative selection）。这些方法都是监督方法，即它们需要目标值来拟合模型。换言之，需要将数据划分为训练集

2022-03-28 16:30:25 2082

转载 pytorch: 训练第一个回归模型

本文参考教程, 非常感谢原作者.1. 模型训练import torchfrom matplotlib import pyplot as pltimport torch.nn.functional as F# 自定义一个Net类，继承于torch.nn.Module类# 这个神经网络的设计是只有一层隐含层，隐含层神经元个数可随意指定class Net(torch.nn.Module): # Net类的初始化函数 def __init__(self, n_feature, n_

2021-07-07 14:17:14 397

原创 Tensorflow2 中屏蔽输出的log信息方法

在 Tensorflow2 版本中可以通过 os 模块配置环境变量 TF_CPP_MIN_LOG_LEVEL 的值，控制 Tensorflow 是否屏蔽通知信息、警告、报错等输出信息。但需要注意的是配置环境变量一定要在 import tensorFlow 之前设置！否则无效！使用方法如下：import os# 下面这句要在 import tensorflow 之前os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' # or any {'0', '1',

2021-05-21 09:58:47 1049

原创 TensorFlow2：使用RNN进行文本分类

（一）实验环境import numpy as npimport tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layersprint('Tensorflow version: ', tf.__version__)### Tensorflow version: 2.3.0 （二）实验数据max_features = 20000 # Only consider the top 20k

2021-05-07 10:54:10 742

原创通过 Tensorflow 的基础类，构建卷积神经网络，用于花朵图片的分类

实验目的通过 Tensorflow 的基础类，构建卷积神经网络，用于花朵图片的分类。实验环境import tensorflow as tfprint(tf.__version__)output:2.3.0实验步骤（一）数据获取和预处理1.1 数据选择 TensorFlow 官方提供的花朵图片数据，经如下代码获取：dataset_url = "https://storage.googleapis.com/download.tensorflow.org/example_images

2021-04-25 19:35:46 1563 1

原创 TensorFlow2 的基本循环训练

实验目的使用 TensorFlow2 基础类 api 训练一个线性回归模型。实验步骤本次实验所使用的环境如下：import tensorflow as tfprint(tf.__version__)2.3.01. 构造训练数据集通过如下代码，生成训练数据集：# 实际的线TRUE_W = 5.0TRUE_B = 10.0NUM_EXAMPLES = 1000# 随机向量xx = tf.random.normal(shape=[NUM_EXAMPLES])# 生成噪声

2021-04-23 16:48:44 523 3

原创计算BAM文件中，单个位点的ATCG的read数量和coverage

计算BAM文件中，单个位点的ATCG的read数量和coverageimport pandas as pdimport osimport pysamimport sys# usage:# python bam2coverage.py bamfile posfile output## bamfile:# posfile: column1, chrom; column2, position# output:## position is starting with 1bamfile

2021-03-22 17:13:23 1782

原创使用 CNN 训练MNIST数据分类模型

（一）实验环境Python版本： 3.7.0TensorFlow 版本： 2.3.0实验数据：MNIST（二）实验步骤1. 下载实验数据import tensorflow as tfimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 第一次加载会自动下载。(train_X, train_Y), (test_X, test_Y) = tf.keras.datasets.mnist.load_d

2021-03-05 20:13:15 1082 1

原创 Jupyter notebook / Ipython 的Tab不能补齐代码问题

问题描述最近在使用 Jupyter notebook 时，突然发现 Tab 不能补齐（提示）代码。尝试安装依然无效。后来意识到并非 Jupyter notebook的问题，而在于 Ipython 。Debug查看了 Ipython 的版本为 7.19.0。 Ipython 中尝试使用Tab补齐时，可能会出现 Exception name 'sys' is not defined 报错。第一种 debug 方法是将 Ipython 版本降至 7.1.0 （或其它早期版本）。然而，这种方法可能在后续

2021-01-07 10:50:35 2574 4

原创 Python：获取两个列表的并集、交集和差集

假设我们有a和b两个列表如下：a = ['a', 'b', 'c']b = ['a', 'f']获取a和b的并集首先将a和b列表转换为元组；再利用元组的union方法获取a和b列表的并集；最后利用 list 方法将结果转换为列表类型。list(set(a).union(set(b)))输出结果如下：[‘b’, ‘c’, ‘f’, ‘a’]获取a和b的交集首先将a列表转换为元组；再利用元组的 intersection 方法获取a和b的交集；最后利用 list 方法将结果转换为列

2020-12-24 12:47:38 2885

原创 Python：multiprocessing——基于进程的并行

multiprocessing 是一个支持使用与 threading 模块类似的 API 来产生进程的包。 multiprocessing 包同时提供了本地和远程并发操作，通过使用子进程而非线程有效地绕过了全局解释器锁。因此，multiprocessing 模块允许程序员充分利用给定机器上的多个处理器。它在 Unix 和 Windows 上均可运行。multiprocessing 模块还引入了在 threading 模块中没有的API。一个主要的例子就是 Pool 对象，它提供了一种快捷的方法，赋予函

2020-11-06 19:50:37 536

空空如也

空空如也