人工智能工具
文章平均质量分 90
AI in Bio
在读生物学硕士,分享人工智能学习笔记,微信公众号:AI in Bio
展开
-
从头实现一个处理 fasta 文件的 tokenizer
对于 6-mer,共计有 4096 ( 4 的 6 次方) 种可能的组合方式,再加上前面提到的 5 种特殊标记,所以 6-mer 的词汇表有 4111 种组合,索引范围为 [0, 4110]。k-mer指的是将k个序列单元作为一个滑动窗口,从第一个序列单元开始扫描,提取出序列中的k-mer。原因在于:功能序列一般都是多核苷酸或多氨基酸,k-mer技术可以将一段序列表示为1个数字,模型记住1个数字要比记住k个数字容易的多。k-mer技术有两个可选值:窗口大小k值和k-mer的滑动步长。原创 2024-09-21 23:43:38 · 468 阅读 · 0 评论 -
Transformers | 在自己的电脑上开启预训练大模型使用之旅!
Hugging Face (https://huggingface.co/) 是一个 Hub 社区,它和 GitHub 相同的是,他们都是基于 Git 进行版本控制的存储库社区,不同的是,Hugging Face 是专门为存储机器学习、深度学习模型而建立的存储库社区,而 GitHub 是一个多元的存储库社区。Hugging Face 存放了开源生态系统中的数十个模型库,例如 Transformers 库、Diffusers 库、Scikit-learn 库等,这数十个模型库总共包含了超过 98 万个模型。原创 2024-09-23 21:40:25 · 450 阅读 · 0 评论