自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 小写→大写,大写→小写,只保留首字母大写的三种方法

【代码】小写→大写,大写→小写,只保留首字母大写的三种方法。

2024-09-17 11:23:28 200

原创 四种分子指纹的介绍:Substructure Fingerprint(子结构指纹)、PubChem 分子指纹、MACCS 分子指纹、ExtFP分子指纹

1.(子结构指纹)以为前缀的分子指纹通常指的是(子结构指纹)。子结构指纹是一种基于化学子结构的分子表征方法,广泛用于分子信息学、药物发现和虚拟筛选等领域。

2024-09-14 11:22:06 702

原创 随机生成150个节点,200条边

中用作变量名,这种用法通常表示我们并不关心循环变量的实际值。也就是说,在循环过程中,虽然每次循环都会产生一个数值(例如。因此,使用下划线作为变量名是一种约定俗成的方式,表示这个变量虽然存在,但不会被使用,避免了给它起一个没意义的名字。),但该数值并不需要在循环体内被使用。在 Python 中,

2024-09-12 20:59:56 180

原创 DataFrame行、列迭代

【代码】DataFrame行、列迭代。

2024-09-09 14:48:26 141

原创 DataFrame 列选择,返回的是DataFrame还是Series?

DataFrame 列选择,返回的是DataFrame还是Series?

2024-09-05 10:50:14 137

原创 二分类、多分类、多标签分类的评价指标

每个样本只能属于两个类别中的一个每个样本只能属于多个类别中的一个。准确率是正确分类的样本数占总样本数的比例。精确率是模型正确预测的正类样本数占所有预测为正类的样本数的比例。召回率是模型正确预测的正类样本数占所有实际为正类的样本数的比例。F1分数是精确率和召回率的调和平均数。混淆矩阵是一个表格,用于描述模型预测结果的表现。ROC AUC 是 ROC 曲线下的面积,衡量模型的分类性能分类报告汇总了精确率、召回率和 F1 分数等指标。

2024-07-29 17:57:20 1753

原创 Linux系统下载htop

在Linux系统上安装htop的具体步骤取决于Linux发行版。下面是常见的Linux发行版。

2024-07-19 20:35:14 449

原创 miniconda安装

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考。

2024-07-19 17:27:08 7083

原创 计算样本之间的相似度

计算样本之间的相似度通常可以通过计算样本之间的距离来实现,尽管这不是唯一的方法。距离度量和相似度度量是两个相关但不同的概念。距离度量通常用于表示样本之间的不相似程度,而相似度度量则用于表示样本之间的相似程度。在距离度量的五种方法中,欧几里得距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、余弦距离 是最常用的三种。欧几里得距离:适用于低维和中维数据,广泛用于各种机器学习算法。(低维通常在1-10维之间,中维在10—100之间)

2024-07-07 22:21:03 647

原创 XGBoost模型中参数stratify的作用

在使用 XGBoost 进行分类和回归任务时,需要设置不同的参数来指定模型的类型。然而,当从分类任务切换到回归任务时,标签 y 是连续值而不是离散的类别,因此 stratify 参数就不再适用了,因为 stratify 只能用于分类任务中的类别平衡。当数据集的类分布不均衡时,直接进行随机分割可能会导致训练集和测试集中类的比例不一致,从而影响模型的性能和评估结果。为了确保训练集和测试集中的类分布与原始数据集中的类分布一致,可以使用 train_test_split 函数中的 stratify 参数。

2024-07-07 20:55:44 377

原创 分类模型、回归模型的常见评价指标

相比较于均方误差,均方根误差,平均绝对误差,决定系数,校正决定系数来说,皮尔逊相关系数和斯皮尔曼秩相关系数并没有那么适合用于回归模型的评估。

2024-07-06 17:08:03 1052

原创 给csv或txt文件加上一列id

从这样变成这样。

2024-07-06 15:04:15 298

原创 synergy_bliss,synergy_hsa,synergy_loewe,synergy_zip的用法

Synergy 是指多种药物联合使用时所产生的协同作用效果。常见的 Synergy 计算方法包括 Bliss、HSA、Loewe 和 ZIP。Bliss 模型基于独立作用原理,假设两个药物在无交互的情况下独立起作用HSA 模型假设联合用药效果不超过最强单药效果。Loewe 模型基于剂量加成原理,假设联合用药效果等同于等效剂量单药效果。ZIP 模型结合 Bliss 和 Loewe 模型,通过零交互效应假设来评估协同作用。

2024-07-02 22:29:47 1175

原创 enumerate函数

enumerate(iteration, start)函数默认包含两个参数,其中iteration参数为需要遍历的参数,比如字典、列表、元组等,start参数为开始的参数,默认为0(不写start那就是从0开始)。enumerate函数有两个返回值,第一个返回值为从start参数开始的数,第二个参数为iteration参数中的值。提示:以下是本篇文章正文内容,下面案例可供参考。

2024-06-24 10:46:55 312

原创 random.choices()和random.sample()函数的区别

在Python编程语言中,sample函数是一个用于随机抽样的实用工具,它属于random模块的一部分。通过使用sample函数,我们可以从给定的数据序列中随机选取一定数量的不重复元素。

2024-06-24 10:28:25 818

原创 isin() 以及.loc[ ]的使用

解释:drug_disease_pd[‘drug’].isin(embeddingf_matrix.keys()) 生成一个。drug_disease_pd[‘disease’].isin(embeddingf_matrix.keys()) 生成一个。isin()方法用于过滤数据框(DataFrame)或序列(Series)中的值,仅保留在给定列表中出现的值。,标示每个 disease 是否在 embeddingf_matrix 的键中。这是一种常用的方法来基于条件选择 DataFrame 中的数据行。

2024-06-22 22:43:30 361

原创 分隔符的使用

制表符分隔值 (TSV) 文件格式表示用纯文本格式的制表符分隔的数据。该文件格式类似于 CSV,用于以结构化方式组织数据,以便在不同应用程序之间导入和导出。该格式主要用于电子表格应用程序和数据库中的数据导入/导出和交换。TSV 文件中的每条记录都包含在单行文本文件中,其中每个字段值由制表符分隔。TSV 文件格式的媒体类型是文本/制表符分隔值。

2024-06-22 21:55:15 465

原创 python. pickle的用法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档。

2024-06-22 19:39:32 556

原创 在服务器后台运行文件

nohup python 文件路径(要是这个.py文件不在根目录下就写绝对路径,在根目录下就直接写文件名.py) > 输出文件的名字.txt 2>&1 && 最后一个& ,代表该命令在后台执行,这个命令不仅会将输出而且还会将错误输出到txt文件中。2>1 2与>结合代表错误重定向,而1则代表错误重定向到一个文件1,而不代表标准输出;例如:nohup python test.py > test.txt 2>&1 &2>&1 换成2>&1,&与1结合就代表标准输出了,就变成错误重定向到标准输出.

2024-06-22 16:11:39 188

原创 csv.reader与pd.read_csv的区别与应用

csv.reader():适合简单的CSV文件读取任务,轻量但需要手动处理数据。csv.reader()返回一个reader对象,该对象将遍历csv文件中的行。从csv文件中读取的每一行都作为字符串列表返回。pandas.read_csv():适合复杂的数据分析和处理任务,提供强大的数据操作功能和便捷接口。pandas.read_csv()返回一个dataframesepPandas用来指定字段分隔符(如空格、制表符、逗号等)。delimitercsv.reader用来指定字段分隔符。

2024-05-31 10:25:45 321

原创 保留txt文件中的双引号

在txt文件中有双引号,但是read_csv之后,双引号消失,是什么原因?

2024-05-30 22:26:00 172

原创 try...except...的使用

异常是我们常说的==“报错”,宏观上分为两类==,一类是语法错误(SyntaxError),另一类是程序异常(Exception)。无论是语法错误还是程序异常,只要触发,程序就会立刻停止运行。KeyError(键错误):当试图访问字典中不存在的键时引发的异常。ValueError(值错误):当传递给函数的参数类型正确但值不合法时引发的异常。TypeError(类型错误):当使用不兼容的类型进行操作或函数调用时引发的异常。FileNotFoundError(文件未找到错误)

2024-05-22 18:15:33 1156 1

原创 sort_values()

用法:参数用法by指定列名或索引值,即:根据哪列进行排序axis若axis=0或’index’,则按照指定列中数据大小排序;若axis=1或’columns’,则按照指定索引中数据大小排序,默认axis=0ascendingTrue:升序;False:降序,默认为Trueinplace是否用排序后的数据集替换原来的数据,默认为False,即不替换{‘first’,‘last’},设定缺失值的显示位置。

2024-05-22 15:23:32 1172

原创 对文件中某一行根据包含的数量进行筛选

针对上面两种方法,第二种要求数据格式是规范的且没有额外的复杂情况,所以第一种较为灵活,且生成的数据格式规范。

2024-05-21 17:30:16 226

原创 os.path的用法

即:只创建clf_cutoff_negative目录,而如果之前的目录不存在并且也需要创建的话,就会报错。os.makedirs()创建。

2024-05-20 10:53:01 350

原创 将字符串两端或中间的引号(单/双)删除

删除字符串中的引号

2024-05-12 22:24:12 826

原创 字典的相关操作

字典的各种操作

2024-04-23 17:18:34 677

原创 字典转变成DataFrame

生成DataFrame的几种方式

2024-04-22 20:49:42 1382

原创 Python 分组的方法

本文为自己自学内容的记录,其中多有借鉴别人博客的地方,一并在参考文献中给出链接。其中内容有理解不到位的地方,请各位大佬在评论区给出修改意见,感恩🌹。

2024-04-22 19:31:53 1058 1

原创 python 的append与extend ; join与” + “;map(function, iterable)与for循环的用法比较

这就是append()和extend()的区别:append()将整个列表作为一个单独的元素添加到另一个列表中,而extend()将列表中的元素逐个添加到另一个列表中。中用于将字符串序列(如列表、元组等)中的元素连接成一个字符串的方法。是一个可迭代对象,如列表、元组等,其中的元素都是字符串。经过上面两种方法的比较,显然join()的方法更简短。是连接的分隔符,它将用于连接序列中的各个元素。分隔符连接起来,并返回连接后的字符串。

2024-04-15 21:56:14 381 2

原创 python 格式化字符串的方法

Python,格式化字符串

2024-04-15 14:58:18 376

原创 Self-attention

本文为自己自学内容的记录,其中多有借鉴别人博客的地方,一并在参考文献中给出链接。其中内容有理解不到位的地方,请各位大佬在评论区给出修改意见,感恩🌹1.输入表示:首先,将序列中的每个元素转换为一个高维空间的向量表示,这些向量通常是通过嵌入层(Embedding Layer)得到的。2.得分计算:对于序列中的每个元素,self-attention机制会计算它与序列中其他元素之间的相似度或“注意力得分”。这通常通过计算元素之间的点积来完成,并且可以应用缩放因子以避免梯度消失或爆炸问题。3.权重归一化。

2024-04-09 22:23:40 614

原创 Pandas中iloc与loc的用法与区别

loc、iloc的用法

2024-04-07 19:56:41 336

原创 分类模型的评估

机器学习:分类模型的评估

2024-03-14 20:15:04 962

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除