- 博客(140)
- 收藏
- 关注
原创 使用.py脚本下载并加载开源大模型LLMs
本文介绍了三种加载和下载Hugging Face模型的方法:1)使用transformers库代码加载模型;2)通过设置镜像解决网络连接问题;3)使用huggingface-cli工具直接下载模型。针对常见的网络连接错误,提供了设置HF_ENDPOINT镜像的解决方案,并展示了模型下载成功的示例。同时给出了使用命令行工具下载模型和数据集的具体命令格式,包括参数设置说明。
2026-05-21 21:06:41
73
原创 Codex cli 分屏并行运行
推荐使用tmux分屏+独立git worktree实现多任务并行开发。每个任务创建独立worktree分支(如baseline、ablation),在tmux不同窗格中分别启动Codex会话,通过--cd指定工作目录,确保修改隔离。对于批量任务可用codex exec非交互式处理并输出日志,或利用Codex内置的subagents机制并行执行子任务。多服务器场景可通过SSH分屏协作,约定独立输出目录。核心原则是通过worktree划分代码边界,配合明确的任务指令,最后人工合并差异。该方法兼顾效率与代
2026-05-20 20:28:14
489
原创 当 AI 不再只是对话:Codex app 的自动化功能
Codex app的自动化功能突破了传统AI工具"一问一答"的局限,实现了从被动响应到主动执行的转变。该功能主要提供两类自动化:面向工作区的定时自动化(如定期生成报告)和面向当前线程的回访式自动化(如延时继续任务)。其核心价值在于将AI转变为可托付任务的合作者,帮助用户管理长期任务、减轻记忆负担,特别适合开发者、研究者和内容创作者。这项功能标志着人机协作从简单问答升级为协同推进,让用户能将注意力集中在更重要的事务上。通过设定任务目标和上下文,Codex能在未来特定时间主动继续工作,实现真正的"断点续传"式协
2026-05-15 18:00:50
532
原创 Codex Automated Paper Reader:一个用 Codex 自动读、筛论文,并生成每日文献推荐的开源工具
CAPR是一个基于Codex的自动化论文阅读工具,能够从arXiv/OpenReview抓取论文,通过语义分析筛选出与研究最相关的文献。它采用两阶段处理:脚本负责稳定抓取候选论文,Codex负责深度阅读、评分和生成推荐报告。系统支持网络预检、API限流fallback、中英文Prompt模板等功能,最终输出包含Top10推荐论文及其核心价值、局限性和研究趋势分析的Markdown报告。相比传统关键词订阅,CAPR能更智能地识别跨领域但有启发性的论文,帮助研究者高效获取每日文献精华。
2026-05-15 17:47:20
1550
原创 Codex CLI 在Linux系统的安装教程
本文介绍了在Linux系统下安装Codex CLI的完整流程。首先通过nvm安装Node.js环境,提供在线和离线两种安装方式,并配置国内镜像源。接着使用npm全局安装Codex CLI,遇到网络问题时可通过切换国内npm镜像源解决。安装完成后,通过codex命令进行授权登录,使用API Key完成验证。最后修改配置文件(config.toml和auth.json)以连接到中转服务,包括设置模型参数、认证方式等关键配置项。整个过程涵盖了从环境搭建到最终配置的全套解决方案。
2026-04-15 18:07:36
5170
原创 本机开发 + 多机执行的极简远端运行工具
`Remote_All` 是一套极简的远端运行工具:`ra-sync` 负责同步代码,`ra-run` 负责同步后在远端后台启动任务,并把结果写入项目自己的 `Results/<job_id>` 目录。它不追求复杂调度,只追求把日常远端运行流程做得足够简单、稳定和透明。
2026-04-15 17:55:50
536
原创 Python Ray 分布式计算应用
Ray是一个分布式Python/AI计算平台,提供完整的端到端解决方案。其核心组件包括:Ray Core(分布式任务、Actor和对象存储基础架构)、Ray Train(简化多机多卡训练)、Ray Data(分布式数据处理流水线)、Ray Serve(模型在线服务部署)和RLlib(强化学习框架)。这些组件可单独使用或组合形成完整工作流,如数据预处理-训练-调参-部署一体化。Ray还提供集群管理工具(Ray Jobs/Dashboard/KubeRay),支持从开发到生产部署的全流程。
2025-12-05 13:54:37
939
原创 vi 修改环境变量
本文介绍了在Shell终端中编辑和应用.bashrc配置文件的常用命令。通过vi ~/.bashrc命令可以编辑用户bash配置文件,修改后使用source ~/.bashrc命令使更改立即生效。这两个命令是Linux/Unix系统下管理bash环境配置的基础操作,适用于自定义shell环境、设置别名等场景。注意操作前建议备份原文件。
2025-12-04 17:37:12
138
原创 用 Ray Tune 优雅地做神经网络超参搜索(超详细手把手,包含MNIST实战)
Ray Tune 超参优化实战:从 PyTorch 训练到分布式调参 摘要:本文介绍如何使用 Ray Tune 进行深度学习模型的超参数优化。Ray Tune 是 Ray 生态中的超参搜索库,支持多种 ML 框架和搜索算法,可在单机或集群上实现高效调参。文章包含完整示例:1) 改造 PyTorch 训练脚本为 Tune 兼容格式;2) 定义搜索空间;3) 配置 Optuna+ASHA 搜索策略;4) 启动实验并分析结果。通过 MNIST 分类任务演示,读者可快速掌握 Ray Tune 的核心流程和应用技巧。
2025-12-04 17:17:31
1355
原创 CMake 在尝试下载 Boost 时失败:SHA256 校验和与预期值不匹配
解决:CMake在下载Boost时失败,提示Each download failed!,且下载的boost_1_75_0.tar.gz文件SHA256校验不匹配。
2025-05-27 14:54:17
821
原创 gflags 安装问题:gflags_nothreads_static已定义,但gflags_shared;gflags_nothreads_shared;gflags_static尚未定义
使用CMake编译时出现gflags相关报错,提示部分静态/动态库未定义。经排查,问题源于Anaconda自带的gflags版本不兼容。解决方法是通过conda-forge重新安装gflags库(conda install -c conda-forge gflags)即可解决依赖冲突。该方案参考了Tencent Tendis项目的类似issue。
2025-05-27 14:47:48
514
原创 Linux安装SRILM
SRILM是一个用于构建和应用统计语言模型的开源工具包,广泛应用于语音识别、统计标注、切分和机器翻译等领域,支持UNIX和Windows平台。本文以Linux平台为例,详细介绍了SRILM的安装步骤。
2025-05-22 18:07:34
888
原创 Linux安装脚本解释工具TCL
SRILM的安装依赖于TCL工具,以下是安装步骤的简要概述:首先,从SourceForge下载TCL安装包tcl8.7a5-src.tar.gz。接着,进入unix目录,如果没有root权限,需使用bash ./configure --prefix=安装目录命令指定安装路径。然后执行make命令,确保安装目录正确,否则会因权限问题报错。最后,执行make install完成安装,并检查安装目录中的文件以确认安装成功。整个过程需注意权限问题,避免默认安装路径导致的错误。
2025-05-22 17:56:04
431
原创 【论文笔记】Transformer^2: 自适应大型语言模型
自适应大型语言模型(LLMs)旨在解决传统微调方法的挑战,这些方法通常计算密集且难以处理多样化的任务。本文介绍了Transformer²(Transformer-Squared),一种新颖的自适应框架,通过在推理时选择性地调整权重矩阵的单个奇异分量来实时适应未见过的任务。Transformer²在参数数量较少且效率更高的情况下,持续优于LoRA等常用方法。此外,Transformer²在不同LLM架构和模态(包括视觉语言任务)中表现出色,代表了自适应LLMs的重大进步。
2025-02-17 17:53:43
987
原创 【论文笔记】Are Self-Attentions Effective for Time Series Forecasting? (NeurIPS 2024)
时间序列预测在多领域极为关键,Transformer 虽推进了该领域发展,但有效性尚存争议,有研究表明简单线性模型有时表现更优。本文聚焦于自注意力机制在时间序列预测中的作用,提出仅用交叉注意力的 CATS 架构。它摒弃自注意力,利用交叉注意力并设置未来视野依赖参数为查询及增强参数共享,提升了长期预测精度,还减少了参数和内存使用。多数据集实验显示,CATS 模型均方误差最低且参数更少。
2025-02-10 17:59:58
1805
原创 dandi download下载数据时报错:Error: ‘gbk‘ codec can‘t encode character ‘\u2212‘ in position 5273...
当使用命令行工具如`dandi download`下载数据时遇到`“'gbk' codec can't encode character '\u2212' in position 5273: illegal multibyte sequence”`这样的错误时,这通常意味着系统的默认编码是GBK,而尝试下载进行处理的文本中包含了GBK编码无法表示的字符。此时,需要在命令行里将编码更改为`UTF-8`
2024-12-09 15:30:41
779
2
原创 【论文笔记】Brant: Foundation Model for Intracranial Neural Signal (NeurIPS 2023, poster)
本文提出了Brant,一个用于脑内记录数据(sEEG)的基础模型,**通过预训练学习强大的神经信号表征,提供了一个大规模的现成模型**。Brant在多项下游任务上表现出色,展示了其广泛的泛化能力。模型设计结合时间和频率域的信息,能够捕捉长时间依赖性和空间相关性。实验表明,模型规模增大会提升性能。预训练策略和低资源标签分析验证了其有效性。源代码和预训练权重已公开(**但实际上需要联系作者获取模型code和权重**,使用你的机构邮件联系:[zhangdz@zju.edu.cn]
2024-11-30 15:33:19
1767
原创 【论文笔记】BIOT: Biosignal Transformer for Cross-data Learning in the Wild (NeurIPS 2023, poster)
本文提出了一种灵活的生物信号编码器架构——BIOsignal Transformer(BIOT),**实现了跨数据集的预训练和下游任务微调,能够应对生物信号格式的多样性和特有挑战,如通道不匹配、样本长度变化和缺失值等问题**。BIOT通过将不同的生物信号“token化”成统一的“句子”结构来解决这些问题,每个通道分别标记为固定长度的片段,片段重组形成长“句子”。每个片段添加了通道嵌入和相对位置嵌入,以保持时空特征。
2024-11-27 18:57:06
3181
原创 【论文笔记】BrainBERT: Self-supervised representation learning for... (ICLR 2023, poster)
本文提出了一个可重复使用的Transformer模型——**BrainBERT**,用于处理颅内场电位记录(sEEG),将现代表征学习方法引入神经科学。类似于自然语言处理(NLP)和语音识别(ASR),**BrainBERT通过在大规模未标注神经数据上进行无监督预训练**,实现了对复杂概念的高精度解码,并减少了所需数据量。**BrainBERT能够推广至新被试和不同任务,展示了其鲁棒的表征学习能力**。此外,该模型还用于探索脑区的计算特性,表明未来可以通过表征学习从神经数据中解码更多概念,从而深入理解大脑。
2024-11-26 21:35:14
1341
原创 【论文笔记】DeWave: Discrete Encoding of EEG Waves for EEG to Text Translation (NeurIPS 2023, spotlight)
本文介绍了一个名为DeWave的大脑动态转换为自然语言的新框架。DeWave通过将离散编码序列整合到开放词汇的脑电图(EEG)到文本翻译任务中,解决了现有方法依赖眼动追踪或事件标记来分割脑动态的问题。**DeWave使用量化变分编码器来推导离散编码,并将其与预训练的语言模型对齐**。这种离散编码表示有两个优势:**1)它通过引入文本-EEG对比对齐训练,实现了无需标记的原始波形翻译**;**2)它通过不变离散编码减轻了EEG的个体差异引起的干扰**。
2024-11-25 20:25:41
2565
原创 nohup 挂载程序在后台运行
**`nohup` 命令在 Linux 系统中用于运行某个命令或程序,使其在用户注销或关闭终端后继续运行**。这个命令的名称来自 "no hang up" 的缩写,意味着 "不挂断"。当你使用 `nohup` 命令时,标准输出和标准错误通常会被重定向到 `nohup.out` 文件中,除非你指定了其他的输出文件。
2024-11-24 09:00:00
765
原创 使用 PyTorch 库来检查 CUDA 是否可用以及 GPU 数量等信息
使用 PyTorch 库来:检查 CUDA 是否可用,GPU 数量,以及 GPU 的详细信息
2024-11-24 09:00:00
2454
原创 【论文笔记】NeuroLM: a universal multi-task foundation model... (ICLR 2025 Under review)
本文介绍了NeuroLM——用于EEG信号处理的首个通用多任务基础模型。**NeuroLM通过将EEG信号整合到大型语言模型(LLMs)框架中,利用先进的文本对齐神经tokenizer的embeddings、大规模多通道自回归预训练和联合多任务调整来应对基于EEG的脑机接口和医疗保健任务的众多任务**。通过在六个不同的EEG数据集上的广泛实验,展示了模型在多任务学习和推理中的优越性能。
2024-11-23 09:00:00
3481
原创 import torch 报错 ModuleNotFoundError: No module named ‘typing_extensions’
解决 import torch 报错 ModuleNotFoundError: No module named 'typing_extensions’
2024-11-23 09:00:00
1092
原创 【论文笔记】Du-IN: Discrete units-guided mask modeling for decoding speech... (NeurIPS 2024)
本文提出了一种新的脑机接口技术,使用立体脑电图(sEEG)来解码语音,这是一种侵入性较小的方法。研究者们收集了一个中文单词阅读的sEEG数据集,并开发了Du-IN模型,该模型通过**区域级别的上下文嵌入**来提高语音解码的性能。Du-IN模型在单词分类任务上超越了所有基线模型,**基于区域级别标记的时间建模和自监督的离散码本引导掩码建模等设计对性能有显著贡献**。这种方法基于神经科学发现,利用特定脑区的区域级别表示,适合于侵入性脑建模,并在脑机接口领域展现出神经启发式AI方法的潜力。
2024-11-22 17:04:31
1705
原创 【Python】几种常用的方法来安装和管理python库依赖
在 Python 开发中,有几种常用的方法来安装和管理库依赖,包括 `requirements.txt`、`environment.yml` 和 `setup.py`。每种方法都有其特定的用途和场景:
2024-11-22 09:00:00
1607
原创 Conda 管理项目环境
Conda 是一个开源的包管理系统和环境管理系统,它主要用于安装和管理软件包和创建、管理不同版本的环境。以下是一些基本的命令和步骤,用于使用 Conda 管理项目环境:
2024-11-21 22:32:09
846
原创 【论文笔记】Large Brain Model (LaBraM, ICLR 2024)
Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI 介绍了一种新型的大型脑电图(EEG)模型,名为Large Brain Model(LaBraM),旨在克服传统基于EEG的深度学习模型在脑机接口(BCI)应用中的局限性,如模型规模有限、感知能力和泛化性不足。**LaBraM通过无监督预训练来获得对EEG信号的通用感知能力,然后可以针对不同的下游任务进行微调。**
2024-11-21 21:09:45
6053
2
原创 【论文笔记】Speech language models lack important brain-relevant semantics (arXiv 2024)
这项研究探讨了基于文本和基于语音的语言模型在预测大脑活动方面的不同效果。研究发现,当从模型中移除文本、语音和视觉等低层次特征后,基于文本的模型在早期感觉区域的预测能力下降,但在晚期语言区域仍保持较强的预测能力。而基于语音的模型即使在移除这些特征后,也能在早期听觉区域保持强大的预测能力,但在晚期语言区域的预测能力则完全丧失。这表明基于语音的模型可能提供了关于早期听觉区域处理的额外信息,但在模拟晚期语言区域的处理时需谨慎使用。
2024-11-20 23:40:33
1231
原创 通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地
通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地
2024-11-20 20:04:47
2154
原创 【Python绘图】两种绘制混淆矩阵的方式 (ConfusionMatrixDisplay(), imshow()) 以及两种好看的colorbar
在机器学习领域,混淆矩阵是一个评估分类模型性能的重要工具。它不仅展示了模型预测的准确性,还揭示了模型在不同类别上的表现。本文介绍两种在Python中绘制混淆矩阵的方法:ConfusionMatrixDisplay() 和 imshow(),以及两种好看的colorbar:coolwarm_r,GnBu, 以增强可视化效果。
2024-11-18 20:13:01
5389
1
原创 huggingface-cli : 无法将“huggingface-cli”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
huggingface-cli 是 Hugging Face 官方提供的命令行工具,它可以帮助用户方便地与 Hugging Face Hub 交互。通过这个工具,用户可以执行多种操作,包括模型和数据集的上传和下载等。
2024-11-16 14:31:41
3951
6
原创 【macOS】Mac安装consola字体至系统和PyCharm的最简单教程
Mac安装consola字体至系统的最简单教程:Word内置有`Consola`字体,所以我们需要做的就是从系统中找到Word里安装的`Consola`字体,然后安装为本机字体即可。
2024-11-15 09:00:00
1259
原创 Mac终端使用brew命令报错:zsh: command not found: brew
当在终端中出现 `zsh: command not found: brew` 这个错误时,可能是因为 **Homebrew** 没有被正确安装,或者它的路径没有被添加到环境变量中。
2024-11-13 14:50:19
23102
2
原创 Python中的extend()方法与+操作符和list.append()方法的异同
如果需要保留原列表不变,并且不介意创建一个新的列表,那么操作符是一个好选择。如果想要就地修改列表,并且需要一次性添加多个元素,那么extend()方法是最佳选择。如果只需要添加一个元素或一个可迭代对象到列表末尾,并且不介意就地修改列表,那么append()方法是一个简单有效的选择。
2024-11-07 23:15:26
487
原创 解决安装GPU版PyTorch报错:cuda 11.7.* , which does not exist (perhaps a missing channel)
为了安装特定版本的 CUDA,需要确保已经添加了提供该版本的通道。解决安装GPU版PyTorch报错:cuda 11.7.* , which does not exist (perhaps a missing channel)
2024-09-18 14:21:37
1965
原创 解决Linux服务器 shell 上下左右键出现乱码^[[D ^[[C ^[[A ^[[B
解决Linux服务器 shell 上下左右键出现乱码^[[D ^[[C ^[[A ^[[B 的问题
2024-09-16 13:01:24
745
基于CSP的运动想象EEG分类:KF,LR,LDA
2024-12-01
基于猕猴Spike运动解码的不同解码方法:Kalman filter,linear regression, DNN, LSTM
2024-12-01
使用sklearn.ensemble.RandomForestRegressor和GridSearchCV进行成人死亡率预测的项目源码
2024-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅