- 博客(231)
- 资源 (1)
- 问答 (3)
- 收藏
- 关注
原创 wegt | 批量下载url下的文件
wget --user user --password pass -r -np -nH -R index.html http://url/including/files/you/want/to/download/各个参数的含义:-r : 遍历所有子目录-np : 不到上一层子目录去-nH : 不要将文件保存到主机名文件夹-R index.html : 不下载 index.html 文件-user 用户名-password 密码这里是引用这里是引用...
2022-05-19 14:21:10 725
原创 AI&化学 | 逆合成分析软件Synbook
Synbook是一款免费的通过AI进行化学合成的软件,他可以进行多条路线设计,拥有反应条件查看等功能,还可以对当前路径进行修改,通过邮箱注册后使用。点击进入网站登录界面目标分子路线查看反应条件redo修改当前路径............
2022-05-15 00:25:37 3668 1
原创 pandas | 并行处理dataframe生成新csv
import csvimport pandas import processing_function1, processing_function2def get_writer(fname, header): fout = open(fname, 'w') writer = csv.writer(fout) writer.writerow(header) return fout, writerdef get_tuple(task): col1, col2,
2020-12-21 16:04:45 371
原创 pip&python | 下载速度慢亲测有效!!!
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple “你要下载的库名”
2020-09-14 21:24:15 259
原创 python | 将列表数据按行保存为txt格式并进行读取
with open("abc.txt", 'w') as f: for i in alist: f.write(i+'\n')f = open("abc.txt","r")lines = f.readlines()for line in lines: line=line.strip('\n')# 删除\n print(line)
2020-08-14 16:41:54 9381 3
原创 joblib&pandas | 多进程处理dataframe通过某一列计算新列
from multiprocessing import cpu_countfrom joblib import Parallel, delayedimport pandas as pdcores = cpu_count()def proc(): """ xxxxxxxxxxxxxxx """ return results def apply_parallel(df_grouped, func): results = Parallel(n_jobs = cores)(delayed(
2020-07-23 15:25:09 1974
原创 从drugbank提取药物对应的靶点和基因信息
DrugBank是一个综合性的在线数据库,它提供了关于药物的详细化学、药理、药代动力学和药物-药物相互作用的信息。这个数据库是一个宝贵的资源,广泛用于药物研究、药理学、毒理学、药物设计和个性化医疗等领域。先从下载XML文件然后使用python对文件进行处理。
2024-05-10 11:49:16 656
原创 使用python创建生成动态链接库dll
*python作为一种脚本语言,本身是不能直接编译生成动态库的。**为了生成动态库,我们借助cython,将python脚本变成c语言文件。具体过程,我们通过一个简单的例子来解释。
2024-03-26 17:45:09 349
原创 构建生物医学知识图谱from zero to hero (4):通过Neo4j构建知识图谱
图数据库是一种专门用于存储图形数据的 NoSQL 数据库。与传统的关系型数据库和其他 NoSQL 数据库不同,图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成,节点代表实体,边代表实体之间的关系。例如,在社交网络中,用户可以表示为节点,朋友关系可以表示为边。在沙盒中启动空白项目 https://sandbox.neo4j.com/?Neo4j使用图相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。
2024-02-23 19:08:39 326
原创 构建生物医学知识图谱from zero to hero (3):生物医学命名实体识别和链接
例如,我们不希望图中有单独的实体代表抗坏血酸和维生素C,因为领域专家可以告诉你这些是同一件事。第二个原因是,通过将概念映射到目标知识库,我们可以通过从目标知识库中获取有关映射概念的信息来丰富图形模型。如果我们再次使用抗坏血酸的例子,如果我们已经知道它的CHEBI id,我们可以很容易地从CHEBI数据库中获取更多信息。在这个例子中,NLP模型在文本中识别了基因、疾病、药物、物种、突变和途径。如前所述,这个过程被称为命名实体识别。例如,在生物医学领域,我们希望在文本中识别各种基因、药物、疾病和其他概念。
2024-02-23 18:18:25 99
原创 构建生物医学知识图谱from zero to hero (5):关系抽取
使用此模型,必须定义要在哪些实体对之间检测关系。将使用命名实体链接的结果作为关系提取过程的输入。首先,我找到所有提到两个或多个实体的句子,然后通过关系提取模型运行它们来提取任何连接。我还定义了一个阈值0.85,这意味着如果模型以低于0.85的概率预测实体之间的链接,将忽略该预测。现在将尝试提取医学概念之间的关系。如果不希望命名实体链接取得完美的结果,那么关系提取技术肯定会出现一些错误。使用zero-shot关系提取器,可以定义要检测的关系。我还尝试了更具体的关系类型,如治疗、原因和其他,但结果并不理想。
2024-02-23 18:10:38 105
原创 构建生物医学知识图谱from zero to hero (2):文献抽取
我们选取一篇文献,将文献PDF转换成图片,然后采用pytesseract 实现图片文字识别。接下来对文本进行处理。
2024-02-23 14:22:03 50
原创 构建生物医学知识图谱from zero to hero (1): 简介
首先,由于生物医学领域的复杂性和多样性,构建全面、准确的生物医学知识图谱需要耗费大量的时间和人力成本。最后,如何将生物医学知识图谱与其他领域的知识图谱进行融合,以实现跨领域的知识推理和应用,也是当前亟待解决的问题之一。此外,随着算法的发展和开源理念的普及,越来越多的生物医学知识图谱开始采用算法驱动的方法,通过自动或半自动的方式从大量生物医学文献中抽取信息,进而构建知识图谱。随着技术的不断发展和应用的不断拓展,相信生物医学知识图谱将在未来的生物医学领域中发挥更加重要的作用。
2024-02-23 11:53:02 105
原创 像素、分辨率、公差的概念
像素是指在由一个数字序列表示的图像中的一个最小单位。像素的多少表明相机所含有的感光元件的多少。所谓 200 万像素 CCD 就是一个由 200 万个光电二极管构成的集合体。一台100万像素的相机拍摄的照片洗成5寸比洗成六寸清晰点。80万 1024×768 5” (3.5×5英寸),130万 1280×960 6” (4×6英寸)
2024-02-05 16:02:43 1680
原创 stable-diffusion | v1-5-pruned.ckpt和v1-5-pruned-emaonly.ckpt的区别
对于日常生成,我们只要了解这样一个事实就行了:如果只是生成,EMA模型和标准模型的效果是一样的。如果你要做二次训练,并且显卡够好,选择带EMA的模型可能更好,因为所有数据都在;VAE模型:用于图像在像素空间和潜在空间的映射,生成图片时将图像从潜在空间转换为像素图片,目前大部分模型都自带VAE。标准模型:生成图片的核心模块,潜空间中的前向扩散和反向扩散就是通过它做的,对应到图中左侧的 U-Net。对于 1.5 模型,其中可能包括四部分:标准模型、文本编码器、VAE模型、EMA模型。
2024-02-04 18:17:31 4338
原创 AI&大模型 | llama2微调手册查看ing
位于[INST]之后,/[INST]之前的文本,是用户在. 这一轮次(<s></s>包含的文本)对话中所输入的query,而/[INST]之后的文本,是模型针对这一query所作出的回答。Llama 2使用与 Llama 1 相同的分词器;在对话中的第一组单元,可以提供整个对话的背景信息,并以<<SYS>>和<</SYS>>作为特殊标记,位于它们之间的,是对话的背景信息,类似instruction。<s> ,<\s>,<<SYS>>,<</SYS>>,[INST],以及[/INST]是特殊token,
2023-12-22 21:39:18 687
原创 clinicaltables | 疾病转化为ICD-10编码
国际疾病分类(international Classification of diseases ,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。ICD使得疾病名称标准化、格式化。这是医学信息化、医院信息管理等临床信息系统的应用基础。
2023-12-19 19:41:29 155
原创 AI | 大模型推理参数解析(进行中)
(int, optional, defaults to 1) - 批次中每个元素独立计算的返回序列的数量。
2023-12-12 16:05:27 2105
原创 onnx导出报错 | IndexError: index_select(): Index is supposed to be a vector
在torch.onnx.export钟添加do_constant_folding=False,如下。
2023-11-23 21:21:27 417 1
原创 大模型多轮对话数据集构建
history”:[[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。水温多少”], [“95”, “上下水管温差怎么样啊?“history”: [[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。“response”:“那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!{“prompt”: “长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线”,{“prompt”: “是的。
2023-11-07 10:57:03 2573 3
原创 化工&python | PID控制器优化算法
比例-积分-导数控制器(PID控制器)是一种采用反馈机制的工业控制系统,用于计算每一时间步k的误差值ek,并将其作为期望设定值(SP)与测量过程变量(PV)之间的差异。通过应用比例、积分和导数项(表示为P、I和D),进行校正调整,从而实现控制作用。传统上存在多种方法来优化这些参数,然而将问题视为黑盒优化问题是一种有效解决方法。ukKPekKIi0∑ikeiKDΔtek−ek−1其中KPKIKD。
2023-10-15 15:08:11 219
原创 化工&python | CSTR连续搅拌反应器系统
绝热连续搅拌釜反应器 (CSTR) 是过程工业中常见的化学系统。容器中发生单个一级放热且不可逆的反应 A → B,假定容器始终完全混合。试剂 A 的入口流以恒定的体积速率进入罐。产物流B以相同的体积速率连续排出,液体密度恒定。因此,反应液体的体积是恒定的。,它们的变化可以由下面方程表示。的冷却套作为系统的输入。在反应器中发生的反应是。
2023-10-15 14:37:34 605
原创 多模态模型文本预处理方式
将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。缺点:这种方式会丢失句子中细粒度的信息。将句子中的类别提取出来,结合成一个句子。
2023-10-15 13:26:35 616
原创 timm模型无法联网下载采用本地读取
最新的timm版本(0.9.x)默认使用huggingface hub作为权重,优先于torch hub缓存,许多权重已经为模型更改重新映射,所以最好通过HF hub下载。Kaggle真的应该支持通过HF hub,或者至少正确地缓存它,但他们似乎没有兴趣让事情变得更简单,所以手动缓存数据集中的权重的疯狂继续…要覆盖预训练的位置,您可以从HF hub手动下载权重文件并尝试以下操作。
2023-09-26 17:09:04 1849
原创 解决shutil.copyfile常见错误:PermissionError: [Errno 13] Permission denied
亲测有效。
2023-09-26 16:03:10 259
原创 pyd包导入报ModuleNotFoundError: No module named
在windows环境下确保运行环境python版本与pyd版本一致。
2023-09-06 15:34:23 404
原创 TensorRT&C++ | INT8量化
实现Int8EntropyCalibrator类并继承自llnt8EntropyCalibrator2。
2023-08-29 11:35:13 368 2
原创 RuntimeError: One of the differentiated Tensors does not require grad
记录一个搞了很久的bug。
2023-07-25 14:37:50 602 1
原创 windows安装detectron2报错
关键错误 1.:UserWarning: Error checking compiler version for cl: [WinError 2] 系统找。
2023-04-27 10:58:57 338 1
原创 mysql | 常用操作
显示数据表的属性,属性类型,主键信息 ,是否为 NULL,默认值等其他信息。列出 MySQL 数据库管理系统的数据库列表。返回数据表 runoob_tbl 的所有记录。返回数据表 runoob_tbl 的条目数量。use 命令来选择要操作的数据库。显示指定数据库的所有表。
2023-03-14 10:46:33 67
半导体设备研究系列之明暗场缺陷检测设备
2024-02-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人