- 博客(76)
- 收藏
- 关注
原创 AI生成文本检测与反检测实践
AI检测是通过技术手段识别AI生成内容的方法,主要用于论文、图像、视频和虚假信息的判定。其原理包括文本水印、相似度检索和分类器训练,通过分析文本困惑度和爆发性来区分人工与AI内容。反检测措施包括人工改写、分块生成、句法语义改写和添加"人味"元素,可降低AI生成概率。常用检测工具有ZeroGPT、腾讯朱雀和Hive Moderation,降重工具包括AI Undetect、词岛AI和Humbot。这些方法虽能降低AI识别率,但可能影响文本表达风格。
2026-01-03 10:57:27
736
原创 python bert_score使用本地模型的方法
本文介绍了bert_score库的本地模型加载方法。该库基于BERT模型评估文本生成质量,但默认需在线下载模型。文章提供了两种本地加载方案:1)修改源码,将模型路径硬编码或参数化;2)通过指定model_type为本地路径并配置num_layers参数。后者利用了Transformers库支持本地路径的特性,同时解决了bert_score需要预知模型层数的问题。文中给出了具体代码示例,包括模型加载和得分计算的关键参数设置,特别说明了中文模型需指定12层的注意事项。这些方法有效解决了网络受限环境下的模型加载问
2025-12-16 14:52:43
402
原创 python几种包管理器的分析比较
摘要:主流Python包管理器各有优劣:pip兼容性最佳但性能差;conda支持跨语言依赖但体积庞大;uv速度最快但生态年轻。选择建议:纯Python项目用uv,科学计算用conda,简单场景用pip。(99字)
2025-12-01 22:34:04
334
原创 Cursor Pylance 被禁用的解决办法
微软对Pylance等扩展加入许可证检测,导致非官方IDE无法使用。Cursor被迫改用自研Pyright并屏蔽Pylance,影响了代码导航、智能补全等功能。用户需适应Pyright作为替代方案。
2025-11-28 13:54:10
827
原创 Python导入自定义模块的几种方法梳理
本文总结了7种Python导入模块的实用场景及解决方案: 单文件脚本:通过sys.path插入当前目录实现导入 微型包:使用项目根目录运行或相对导入 正规包:通过pip install -e安装实现稳定导入 命名空间包:PEP 420标准实现多仓库合并 Jupyter Notebook:临时修改路径或可编辑安装 测试目录:安装项目或手动添加src到路径 关键点: 所有导入问题本质是sys.path查找问题 路径处理推荐使用pathlib 生产环境务必在干净环境测试 附7条常见避坑指南,覆盖相对导入、路径遮蔽
2025-11-25 14:47:46
511
原创 PCAM数据集上面验证CNN CNN+AutoEncoder TL-CNN效果差异与比较
本文介绍了PCam医学图像数据集和三种基于CNN的肿瘤分类模型。PCam数据集包含32.7万张96×96像素的淋巴结病理切片图像,用于二分类检测转移性癌症。研究设计了三种网络:1)基础CNN模型,包含三个卷积块和全连接层;2)自编码器模型,由编码器(压缩图像)和解码器(重建图像)组成;3)迁移学习模型,利用预训练编码器的特征进行癌症分类。这些模型采用三层卷积结构,逐步将图像尺寸从96×96降至12×12,最终通过全连接层实现分类。
2025-10-26 13:17:12
662
原创 Trtexec工具基本使用与心得
是 NVIDIA TensorRT 官方提供的“命令行瑞士军刀”,用来把模型快速转成 TensorRT 引擎、跑性能基准、验证精度,简化大量的代码开发。使用trtexec生成的引擎文件(.plan)是为的“终极可执行二进制”——它一旦生成,只能跑在 GPU 上、只能给 TensorRT 运行时加载,但换来的是。
2025-10-22 10:51:38
897
原创 ONNX模型格式详解
ONNX(开放神经网络交换)是一种跨平台的深度学习模型中间表示格式,用于解决不同AI框架间的兼容性问题。它允许将PyTorch、TensorFlow等框架训练的模型转换为统一格式,便于部署到不同环境(如TensorRT、移动设备等)。通过torch.onnx.export可轻松将PyTorch模型转为ONNX格式,并使用ONNXRuntime进行高效推理。ONNX不仅实现框架间互操作性,还能通过优化提升推理性能,有效解决了AI生态中的框架碎片化问题。
2025-10-12 15:01:01
609
原创 模型蒸馏从理论到实践
模型蒸馏是一种模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,在保持性能的同时提升推理效率。其流程包括:训练教师模型生成软标签,指导学生模型学习,结合真实标签和教师输出的软标签计算损失(交叉熵和KL散度)。学生模型设计需考虑参数量、推理延迟和显存限制等硬件约束。常用开源框架支持这一过程,实现高效模型部署。
2025-10-12 14:30:27
324
原创 Lunix 不可不知的100条命令(不定期更新中......)
本文介绍了三个常用的Linux命令操作:1)通过lsof -i:端口号查看并kill -9终止指定端口进程;2)使用rm -r递归删除文件夹及其内容;3)利用mv命令移动/重命名文件或文件夹。这些命令适用于系统管理、文件操作等场景,是Linux基础运维的重要技能。
2025-09-23 16:37:15
182
原创 Cursor Agent模式下面在指定的conda虚拟环境中执行python脚本
本文介绍了4种让Cursor Agent在指定conda环境中运行Python的方法:1)在shell配置中设置环境变量自动激活;2)在项目根目录创建.cursorrc文件指定解释器;3)在对话中明确告知使用特定环境;4)直接使用conda环境的完整Python路径。关键点包括利用CURSOR_AGENT变量识别Agent运行状态,以及确保conda环境正确激活。这些方法可根据不同场景灵活选择,使Agent在所需环境中执行Python命令。
2025-09-23 14:38:28
687
原创 Robert模型与NER实体抽取
RoBERTa模型是对BERT的优化改进,主要采用三种训练策略:1)完全移除NSP任务,专注MLM任务;2)采用动态掩码机制,每轮训练重新生成掩码位置;3)大幅增加训练数据(160GB)和批次大小(8K)。这些改进使模型在命名实体识别、文本分类等任务中表现更优。相比静态掩码的BERT,RoBERTa通过动态掩码和更大规模训练实现了性能提升。
2025-09-08 10:22:29
958
原创 KAQG:一种用于生成难度可控问题的知识图谱的增强的RAG系统(论文大白话)
本文提出了一种基于知识图谱+RAG+LLM的教育考试问题自动生成方法。系统采用DDS发布订阅架构,包含KAQG-Retriever和KAQG-Generator两个核心模块:前者将异构数据转化为文本并构建知识图谱(三元组形式),后者利用结构化知识生成问题并进行难度评估。系统创新性地采用多Agent模式处理不同任务,通过DDS总线实现数据分发。实验表明该方法能有效控制生成问题的难度,为教育领域提供了可靠的自动化出题方案。代码已在GitHub开源。
2025-08-12 15:34:52
531
原创 用于多行为序列推荐的多粒度偏好增强Transformer(论文大白话)
本文提出了一种基于多行为序列建模的推荐系统方法M-GPT,通过分析用户在点击、收藏、加购、购买等多种行为上的交互模式来预测购买行为。核心创新点在于:1)构建交互级全连接图进行图卷积,捕获多行为间的依赖关系;2)采用多粒度序列模式生成机制,结合全局和短期兴趣表示。在淘宝、IJCAI和Retail三个电商数据集上的实验表明,该方法在HR@5/10和NDCG@5/10等指标上优于基线模型,最高提升达9.68%。研究通过建模异构行为序列中的复杂依赖关系,有效提升了推荐系统的预测准确性。
2025-07-24 10:21:08
1097
原创 Django关于ListView通用视图的理解(Cursor解释)
摘要 用户在使用Django的ListView时遇到模板找不到的问题。错误显示系统无法定位app01/article_list.html模板文件。解决方案是: 确保在app01目录下创建正确拼写的article_list.html文件 文件内容需包含基本HTML结构和object_list循环展示文章 检查文件路径是否为django_app/app01/article_list.html 若之前存在拼写错误的文件(如aticle_list.html),需删除后重建 问题核心在于模板文件的命名规范和存放路径,
2025-07-21 22:49:59
1177
原创 Django由于数据库版本原因导致数据库迁移失败解决办法
摘要:本文介绍了Django中模型(Model)与数据库表的映射关系。通过创建BlogPost模型类,演示了如何定义字段类型、外键关系及元数据配置。详细说明了makemigrations和migrate命令的作用:makemigrations生成迁移文件记录模型变更(类似git的checkpoint),migrate则将变更应用到数据库。文章还解释了模型类最终生成的数据库表结构,包括自动创建的主键id字段、各字段的数据类型约束以及外键关联关系。最后提到迁移失败时可回退并重新生成迁移文件的处理方法。
2025-07-17 17:58:04
382
原创 PyVision:基于动态工具的具身智能体
摘要: PyVision提出了一种动态工具生成的智能视觉代理框架,通过多语言大模型(MLLM)在推理过程中实时生成并执行Python代码来解决特定视觉任务。该系统在隔离环境中执行代码,将多模态输出反馈给模型进行迭代优化,支持视觉搜索、医学图像分析等6类任务。实验表明,该方法在MathVista等基准上取得性能提升(如GPT-4.1提升1.8%)。技术核心包括:1) 模块化提示模板系统;2) 安全代码执行器;3) 多轮推理循环机制。开源实现提供OpenAI/Claude/VLLM等后端支持,强调代码生成与反射
2025-07-12 21:39:23
497
原创 大白话讲清楚Docker
FROM 用于指定基础镜像,后面所有的指令都是在这个基础镜像的上进行的。最后的实际构建的镜像就是最后一个FROM语句之后的命令做的。Docker虽然本质上是共享宿主机(运行Docker的机子)的内核,但是里面有独立的文件系统,进程这些。比如在构建Docker镜像的Dockerfile里面,COPY命令这些,就是把宿主机上的文件,复制到镜像里面。这是因为Docker构建镜像的时候一个命令就是产生一个镜像层,镜像层越多这个镜像越大。相当于是一个安装程序。容器是镜像的运行实例,是一个轻量级、可移植的执行环境。
2025-07-08 11:17:22
829
原创 通过模式策略优化实现社交语言智能体的适应性思维
【摘要】本文提出自适应多模式学习框架(AML),解决大语言模型在社会性推理中存在的过度消耗与效率低下问题。通过构建四种思维层级(无思考/浅层/战略/深度),结合两阶段训练方法:1)行为克隆微调基础模型;2)强化学习优化模式选择策略,实现动态调整推理深度。实验表明该方法在社交场景中显著提升响应质量(如露营案例中代理采用分时共享策略),同时数学推导证明其能有效平衡token消耗与推理精度。创新点在于引入分层认知控制理论,并通过模式级优势计算优化决策过程。
2025-06-20 16:29:09
902
原创 Cursor使用技巧篇(经常更新ing)
摘要: Cursor的Agent模式可以自动编写文件,但项目中重要的.开头配置文件需开启Dotfilesprotection防止误改。Playsoundonfinish选项会在复杂任务完成时播放提示音,避免用户遗忘。快捷键CMD+T/ctrl+T支持多标签页并行处理任务,不同于“+”新建Chat会中断前一个任务。这些功能优化了开发效率和任务管理体验。
2025-05-31 15:22:45
2163
原创 DARLR用于具有动态奖励的推荐系统的双智能体离线强化学习(论文大白话)
摘要:本文提出DARALR框架,将离线强化学习应用于推荐系统,解决静态奖励函数和固定不确定性惩罚的问题。传统方法依赖冻结的世界模型,导致奖励估计偏差和策略学习不准确。DARALR通过选择器智能体选取相似且多样化的参考用户,推荐器智能体聚合交互数据动态优化奖励估计,并基于统计特征调整不确定性惩罚。技术实现上,采用马尔可夫决策过程,动态更新奖励函数和惩罚系数(如(r=\tilde{r}-\lambda_UP_U)),提升稀疏数据下的推荐效果。代码和论文已开源。
2025-05-25 17:42:08
806
原创 机器学习中采样哪些事
在机器学习中,处理不平衡数据集的常用方法包括过采样和欠采样。过采样通过增加少数类样本的数量来平衡数据集,而欠采样则通过减少多数类样本的数量来实现平衡。常用的过采样方法有随机过采样和SMOTE,后者通过在少数类样本之间插值生成合成样本。欠采样方法包括随机欠采样、TomekLinks和NearMiss。TomekLinks通过移除多数类中靠近少数类的边界样本来减少多数类样本,而NearMiss则基于最近邻原则,通过移除与少数类样本距离较近或最远的多数类样本来实现欠采样。这些方法各有优缺点,适用于不同的数据集和场
2025-05-15 18:08:01
601
原创 Win11 CMD 命令行闪退的解决方案
CMD的启动行为和默认设置也存储在注册表中,通过修改注册表中的相关键值,可以改变CMD的行为。但是用自带的程序去卸载的时候出现的问题,就采用手动去把conda文件夹给删了,然后重新安装在这个过程中的话,安装的时候就会报509错误。删除或清空`AutoRun`键值后,CMD在启动时就不会再尝试执行那些可能导致错误的命令。在排查的过程中发现它是最后安装anconda_powershell_prompt工具失败的,然后就排查到了启动cmd命令行的时候就闪退。这种问题通常是由Anacond的安装或卸载操作导致的。
2025-03-29 14:12:26
3241
2
原创 在Mac M1/M2芯片上完美安装DeepCTR库:避坑指南与实战验证
作为推荐系统领域的最经常用的明星库,DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在Apple Silicon架构的Mac设备上,安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测,总结出最稳定的安装方案。
2025-03-22 19:54:35
1167
原创 推理大模型(DeepSeekR1为例)在编程中有用的提示词示例
现在的大语言模型(LLM)从工作方式上看主要分为两种,非推理模型和推理模型。比如deepseek,其中的V2,V3就是非推理模型,R1就是推理模型。两者最大的区别就是推理模型可以向人类一样进行思考,具有思维链,而非推理模型就是单词接龙,一个词一个词的蹦出 来,只是按照是一句话最大的概率不断生成。今天想在这里分享的是在使用推理模型辅助我们编码的时候,我们给的提示词的格式。
2025-03-16 16:39:27
688
原创 机器学习基础例子篇
逻辑回归是一种用于分类问题的机器学习算法,尽管名字里有“回归”,它的主要目标是解决二分类问题(例如,预测邮件是否为垃圾邮件)。它的核心思想是利用线性回归的输出值,通过一个S型函数(Sigmoid函数),将结果映射到0到1之间,作为属于某一类别的概率。σz11e−zσz1e−z1其中,zzz是输入特征和权重的线性组合。逻辑回归的优点在于简单高效,尤其适合线性可分数据,且结果容易解释(通过权重判断特征的重要性)。但对于复杂的非线性关系,它的表现可能不足.
2025-01-03 18:15:29
1626
原创 推荐系统里面的多任务学习概述
多任务学习(multi-task learning),本质上是希望使用一个模型完成多个任务的建模,在推荐系统中,多任务学习一般即指多目标学习(multi-label learning),不同目标输入相同的feature进行联合训练,是迁移学习的一种。
2024-12-10 22:24:54
1418
原创 推荐系统与大模型
目前大模型在推荐系统取得巨大进展的同时也上主要一些的问题。主要有以下三点。1. Position Bias.在推荐系统的生成语言建模范式中,用户行为序列和推荐候选序列等各种信息以文本序列描述的形式输入到语言模型中,这可能会引入语言模型本身固有的一些位置偏差。2. Popularity Bias.lm的排名结果受到候选人的受欢迎程度的影响。在lm的训练语料库中,经常被广泛讨论和提到的流行项目,往往排名更高。解决这个问题具有挑战性,因为它与预先训练过的语料库的组成密切相关。
2024-11-17 20:36:03
1019
原创 Windows转Mac过渡指南
之所以下载后桌面会多出如图的图标,是因为,Safari有一个功能就是下载特定类型文件后会执行特定的“打开”动作,对于 .dmg文件来说,它会自动执行“装载”的动作。意思就是,访问这个文件夹的内容,就是在访问那个被装载设备的文件。这个动作其实就是“卸载”的意思,也就是系统关闭对那个资源的访问,并断开与之连接的那个文件夹,最后也会删除那个用来装载的文件夹的。mac默认的abc输入法,在中文输入的时候感觉是不好用的,下载了其他输入法,如搜狗输入法之后,使用还是默认的abc就很难受。3.mac中最实用的快捷键。
2024-10-31 16:06:09
2682
原创 Bert Score-文本相似性评估
Bert Score 是基于BERT模型的一种方法。它通过计算两个句子在BERT模型中的嵌入编码之间的余弦相似度来评估它们的相似度。BERTScore考虑了上下文信息和语义信息,因此能够更准确地衡量句子之间的相似度。
2024-09-27 11:06:41
2114
原创 LORA DASH -一种更高效的微调方式
大型语言模型(LLMs)通过在大规模数据集上的预训练,能够捕捉和学习丰富的语言特征和模式。目前,尽管预训练模型在诸多任务上取得了显著的成果,但它们在特定任务上的表现仍有提升空间。为了进一步提升模型的性能,研究者们通常采用微调(Fine-tuning)的方法,即在预训练的基础上,针对特定任务继续训练模型。微调过程虽然有效,但也带来了显著的资源消耗问题。尤其是对于包含数十亿甚至数千亿参数的大型模型,全参数微调需要巨大的计算资源和内存消耗。
2024-09-24 18:00:27
1010
原创 OpenAI o1 System Card 中文浓缩版
o1 模型系列通过大规模强化学习进行训练,以使用思维链进行推理。这些高级推理功能为提高模型的安全性和稳健性提供了新的途径。特别是,我们的模型可以在响应可能不安全的提示时根据上下文推理我们的安全策略。这导致在某些风险基准测试上具有最先进的性能,例如生成非法建议、选择刻板的响应以及屈服于已知的越狱。在回答之前,训练模型整合一条思维链有可能带来巨大的好处,同时也会增加因智力提高而产生的潜在风险。我们的结果强调了构建稳健的对齐方法、广泛压力测试其有效性并维护细致的风险管理协议的必要性。
2024-09-14 15:31:17
966
原创 PLANSEARCH——搜索正确的思路,然后实现它!CursorAI编码能力提升的核心
这样一来,所有观察结果的集合都可以定义为深度为 1 的有向树,其中根节点为 P,并且每个 C^1_i 都有一条从 P 指向 C^1_i 的边。为了得到二阶观察,该团队的做法是在给模型的提示词中包含原始问题 P 和 C^1_i 中包含的所有观察 —— 这些观察被构造为解决 P 所必需的原始观察。为了提升多样性,对于每个生成的思路,该团队通过假设该思路是错误的来生成一个额外的思路,并要求 LLM 给出批评 / 反馈,从而将提议的思路翻倍了。这种情况下,即使模型花费更多推理时间,也难以获得更好的搜索结果。
2024-09-12 10:55:48
862
原创 吊打Github Colpliot! Cursor 最新AI辅助编程工具特色功能总结
本文介绍了一款名为Cursor的智能代码编辑器,它结合GPT3.5和4.0功能,帮助编程新手快速学习和提升技能。虽然起初免费,但后来因运营成本调整为部分收费。
2024-09-06 14:03:32
692
原创 大模型(LLM)内部工作流程可视化
直观的了解大模型的工作原理对大模型开发十分重要,今天给大家介绍一个来自佐治亚理工学院和 IBM 的研究人员研发的一个的Transformer可视化工具。这个工具可以让我们可以全面了解变压器内部发生的情况。它专为交互式使用而设计,可以直接从我们的浏览器了解 Transformer 模型的工作原理,尤其是使用 GPT-2 模型同时还可以自定义文本来尝试,并实时观看 Transformer 的内部组件和操作协同工作以预测下一个单词。
2024-09-04 11:48:31
1878
原创 LLM训练成本计算指南(手搓版)
在大模型训练的过程中,提前预估训练所需要的训练资源是十分有必要的,基于transformer结构的语言模型这些都是可以通过计算来进行估计的。这篇bolg就是主要围绕这个问题来进行展开。
2024-08-31 11:11:51
1361
原创 (最全)入门级-LLM调教指北
变换器架构是由Vaswani等人在其著名的论文《Attention Is All You Need》中引入的,我们在这里不会深入讨论架构的具体细节,因为那将涉及到讨论所有导致并促成其创建的旧技术。变换器使我们能够训练具有惊人推理能力的大型语言模型(LLMs),同时保持架构的简洁,足以让机器学习新手开始训练/尝试。对于语言建模来说,最常见的架构就是transformer架构。变换器允许我们以一种非常高效的方式处理数据,它使用注意力机制来加强模型对输入数据序列中不同部分之间关系的学习能力。
2024-08-23 23:13:34
1023
原创 深度学习中常用概念总结
上下文并行大小可能是指在使用特定深度学习框架时,如 Megatron-LM 中的设置,用于控制跨多个 GPU 分配模型的不同部分的方式。微批处理大小是在模型并行或流水线并行中使用的概念,指的是在每个 GPU 或每个并行阶段中处理的批次大小。张量模型并行大小是指在模型并行中,模型的张量如何分配到不同的处理器上。它影响计算资源的利用和模型训练的稳定性。在深度学习中,词大小通常指的是模型中词嵌入(Word Embedding)的维度,即表示每个词的向量的长度。步数(Steps)通常指的是训练过程中的迭代次数。
2024-08-08 18:25:32
817
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅