- 博客(106)
- 收藏
- 关注

原创 论文速读 - 通过提示工程创建全面的合成数据集以支持医疗领域模型训练
高质量医疗数据的获取常常受到隐私问题的限制,这给在电子健康记录(EHR)应用中训练人工智能(AI)算法带来了重大挑战。本研究采用了GPT-4 API的提示工程,生成高质量的合成数据集,以克服这一限制。生成的数据涵盖了全面的患者入院信息,包括医疗提供者详细信息、医院科室、病区、床位分配、患者人口统计信息、紧急联系人、生命体征、免疫接种、过敏情况、病历、预约、住院记录、实验室检查、诊断、治疗计划、药物、临床笔记、就诊日志、出院总结和转诊信息。
2025-04-30 10:45:12
1301

原创 论文速读 - Cleaner Pretraining Corpus Curation with Neural Web Scraping
网络包含大规模、多样化和丰富的信息,以满足人类的信息需求。通过精心的数据收集、预处理和整理,网页可以作为语言模型预训练的基本数据资源。然而,面对不断革新和复杂的网页性质,基于规则/基于特征的scraper越来越显得不够用。本文介绍了一种简单、快速且有效的神经网络网页scraper(NeuScraper),以帮助从网页中提取主要和干净的文本内容。实验结果表明,NeuScraper通过实现超过20%的改进,超过了基线scraper,展示了其在提取更高质量数据以促进语言模型预训练方面的潜力。
2024-10-26 17:19:25
1032
原创 VS Code用fnm调试Next.js应用
本文介绍了在VS Code中使用fnm运行调试Next.js应用的解决方案。fnm是一个轻量级Node.js版本管理工具,支持多版本切换和自动检测项目指定版本。Next.js是Vercel开发的现代化React框架,支持SSR/SSG等特性。文章指出VS Code调试时无法识别fnm安装的Node路径,并提供了两种配置方案:直接指定Node路径或通过fnm exec命令运行。推荐使用后者配合.node-version文件实现版本自动切换,避免了硬编码路径的问题。该方法既保留了fnm的版本管理优势,又解决了V
2025-06-13 11:21:07
614
原创 uv管理spaCy语言模型
本文探讨了在使用uv管理Python项目依赖时,如何将spaCy的语言模型纳入依赖管理。spaCy作为流行的NLP库,需要额外下载语言模型(如en_core_web_sm),但这些模型通常不会被uv sync自动保留。文章提出两种解决方案:1)使用--inexact参数保留现有安装(但无法自动安装);2)更优方案是通过URL手动声明模型依赖(如指定GitHub release的whl文件路径),这样既能保持模型不被删除,又能在新环境中自动下载。推荐采用第二种方案,在项目配置文件中直接添加模型依赖的完整URL
2025-06-05 11:46:36
762
原创 【Machine Learning Q and AI 读书笔记】- 05 利用数据减少过拟合现象
本章主要从数据量增加,数据增强,和预训练三个与数据量相关的方面讨论如何降低过拟合.
2025-05-07 10:44:49
387
原创 【Machine Learning Q and AI 读书笔记】- 04 彩票假设
神经网络剪枝技术可以将训练后的网络参数数量减少超过90%,在不降低准确率的情况下,降低存储需求并提高推理的计算性能。然而,当下的经验表明,剪枝产生的稀疏架构从一开始就很难训练,而这本可以类似地提升训练性能。我们发现,一种标准的剪枝技术自然地揭示了那些由于其初始权重而能够有效训练的子网络。基于这些结果,我们提出了“彩票假设”:密集的、随机初始化的、前馈网络中包含子网络(“中奖彩票”),这些子网络在单独训练时,能够在类似的迭代次数内达到与原始网络相当的测试准确率。
2025-05-01 19:21:36
1399
原创 【Machine Learning Q and AI 读书笔记】- 03 小样本学习
小样本学习有许多不同的类型,最常见的是元学习,本质上是更新模型参数以便模型更好的适应新的任务.
2025-05-01 18:07:12
929
原创 深入理解 PEP 750:Python 全新 Template String(t-string)详解
PEP 750 的 t-string 为 Python 字符串处理带来了革命性的变革。它不仅继承了 f-string 的简洁语法,还提供了对模板结构与插值的完全访问能力,使开发者能够在字符串最终生成前进行任意自定义处理。这为安全渲染、领域特定语言、结构化日志等高级场景提供了强大支持。随着 Python 3.14 的发布,t-string 有望成为现代 Python 开发中不可或缺的字符串处理利器。
2025-04-30 10:04:14
753
原创 Tshark:强大的命令行网络抓包与分析工具
Tshark 是一款功能强大的命令行抓包与分析工具,适用于服务器端、远程排障、自动化测试等多种场景。掌握 Tshark 的常用命令和参数,能极大提升网络问题定位与数据分析的效率。如需更详细的协议解析、过滤表达式或统计分析,可以查阅官方手册或使用。
2025-04-29 18:17:22
937
原创 【Machine Learning Q and AI 读书笔记】- 02 自监督学习
自监督学习是一个预训练过程, 能让神经网络在监督学习的方式下,学习大规模的无标签数据集
2025-04-29 12:33:31
1418
原创 【Machine Learning Q and AI 读书笔记】- 01 嵌入、潜空间和表征
本文介绍**嵌入向量**,**表征**,和**潜空间**这些概念, 核心是嵌入向量.
2025-04-28 13:13:34
1075
原创 FastAPI中使用Pydantic进行数据验证的示例与关键技术点分析
通过继承BaseModel定义数据模型,模型中的字段使用Python类型注解声明类型,例如。FastAPI自动根据模型定义对请求体数据进行验证和解析,确保传入数据符合预期结构和类型。利用FastAPI和Pydantic结合,可以轻松实现高效、健壮的数据验证机制。通过声明式的模型定义和灵活的验证器装饰器,开发者可以清晰地表达数据结构和业务规则,减少手动校验代码,提高开发效率和代码质量。示例中展示的字段级验证和根验证器是常见且实用的技术点,适用于邮箱确认、密码确认等多字段联合校验场景。
2025-04-27 21:13:21
320
原创 FastAPI中的依赖注入详解与示例
依赖注入是一种设计模式,通过将组件所依赖的对象(依赖项)由外部传入,而不是在组件内部自行创建,从而实现代码解耦和复用。在FastAPI中,依赖注入允许我们声明路径操作函数所需的依赖,FastAPI会自动执行依赖逻辑并将结果注入到函数参数中。依赖项通常是一个普通函数(可以是异步的),它执行某些逻辑并返回需要注入的值。
2025-04-27 21:10:38
380
原创 PyDantic入门介绍:Python数据验证与解析的利器
PyDantic是一个基于Python类型注解的数据验证和解析库。你可以通过定义继承自BaseModel的模型类,指定字段类型,PyDantic会自动帮你验证数据是否符合预期,并将数据转换成对应的Python对象。它不仅支持基本类型,还支持复杂嵌套结构,且提供详细的错误信息,方便调试。PyDantic广泛应用于FastAPI等现代Python框架中,用于请求体、响应体的数据验证和序列化。定义模型只需继承BaseModelname: strage: int这里定义了一个Person模型,包含name。
2025-04-27 21:04:24
459
原创 深度解析:Web Crawling与Web Scraping的区别与联系
Web Crawling指的是通过自动化程序(称为爬虫或蜘蛛)系统性地访问互联网中的网页,目的是收集网页内容和链接信息。爬虫从一组初始URL(种子页面)开始,访问网页,解析网页中的超链接,递归地抓取新链接,形成庞大的网页数据库。Web Scraping是指从网页中提取结构化或半结构化数据的过程。它通常基于爬虫下载的网页内容,通过解析HTML、DOM结构,定位并抽取目标数据字段,如产品价格、评论、联系方式等。关键词Web Crawling(网页爬取)Web Scraping(网页抓取)本质。
2025-04-27 20:21:48
715
原创 【LLM应用开发101】初探RAG
大语言模型(LLMs)的应用开发可以被视为一种实现人工智能(AI)和自然语言处理(NLP)技术的方式。这种类型的模型,比如GPT-3或GPT-4(但其实一些不那么大的模型例如BERT及其变种, 在很多应用中也非常有用),能够生成与人类语言类似的文本,使其在各种应用上具有广泛的可能性。以下是一些大语言模型应用开发的主要应用领域:内容生成与编辑:语言模型可以生成文章、报告、电子邮件等,也可以提供写作建议和修改。问答系统:大语言模型可以被用来创建自动问答系统,能够理解并回答用户的问题(BERT应用中有一种。
2025-04-27 18:50:00
1121
原创 Bi-Encoder vs Cross-Encoder
维度Bi-Encoder编码方式查询和文档独立编码查询和文档联合编码计算效率高,适合大规模检索低,适合小规模精细排序语义交互较弱强,捕捉细粒度上下文关系适用场景大规模语义搜索、实时响应精准排序、重排序、语义匹配计算资源需求低高结合实际需求,合理选择或结合使用Bi-Encoder和Cross-Encoder,能够在效率与准确率之间取得最佳平衡。以上内容基于多篇权威资料总结整理,并结合官方示例代码进行演示,便于理解和应用。
2025-04-27 14:03:37
1240
原创 LangChain LCEL表达式语言简介
LangChain表达式语言(LCEL)是专为构建AI应用链设计的声明式编程框架,通过管道符实现组件无缝衔接,支持流式处理、异步调用等生产级特性。其核心优势在于,同时保持代码简洁性和可维护性。
2025-04-25 21:07:04
323
原创 Spring AI 核心概念
本文介绍了Spring AI中和AI模型相关的核心概念并且适当做了一些科普性扩展,希望对大家使用Spring AI开发应用有所帮助.
2025-04-24 21:25:37
1159
原创 Spring AI简介
使用Spring AI调用LLMs来完成任务非常方便,也没有复杂的配置,做到了开箱即用,更多功能以及和LangChainLlamaIndex的对比正在探索中,后续会以博客的形式持续发布,欢迎讨论.
2025-04-24 11:50:38
1050
原创 LangChain Runnable简介
`LangChain` 是一个强大的语言模型开发框架,而 `Runnable` 接口则是其核心基础之一。通过 `Runnable`,可以将各种处理逻辑模块化、标准化,并灵活地组合成强大的链式处理流程。本文将详细介绍 `Runnable` 接口的原理、常用方法、典型用法,并给出具体代码示例,帮助你快速上手。
2025-04-23 21:01:24
365
原创 Langchain coercion简介
在`LangChain`框架中,`Coercion`(强制转换)是`LCEL`表达式语言的核心机制之一,它通过自动化类型转换简化了链式组件的组合过程。这种机制允许开发者用更简洁的语法实现复杂的逻辑流,同时保持代码的可维护性和扩展性。
2025-04-23 20:54:47
514
原创 docker容器中uv的使用
uv是用rust编写的一个python包管理器,特点是速度快,且功能强大,目标是替代pip,不仅能管理python项目的依赖,还能很容易的切换python版本(venv的方式). 更详细的介绍可以参考笔者的另一篇博客uv: 一个统一的Python包管理工具uv。
2025-04-22 13:04:07
1047
原创 Mistral的QLoRA微调
在之前的工作中,主要对ChatGLM和Qwen系列的模型进行微调来进行特定领域知识的学习. 这篇post记录一下Mistral 7B的微调,目标是通过训练让模型学到数据集中的写作风格.
2025-04-14 10:00:46
252
原创 MCP: 人工智能应用的标准化连接协议
MCP是一个开放协议,它标准化了应用程序向LLM提供上下文的方式。我们可以将MCP比喻为AI应用的USB-C接口。就像USB-C为各种设备提供了标准化的连接方式,MCP为AI模型连接不同的数据源和工具提供了标准化的方法。
2025-03-05 14:41:28
527
原创 Python OpenAI库安装问题的解决
因为要使用Moonshot平台的API开发一些小工具,用到OpenAI库(Moonshot API兼容OpenAI). 安装后导入却发现有依赖问题,解决过程如下.
2024-12-17 18:55:55
1428
原创 matplotlib中文字体问题排查
本文记录排查MambaforgeSimHei下的字体渲染问题操作系统信息:Linux raspberrypi 6.1.21-v8+ #1642 SMP PREEMPT Mon Apr 3 17:24:16 BST 2023 aarch64 GNU/Linux。
2024-11-27 16:25:46
390
原创 西瓜书《机器学习》符号表KaTex表示
写这篇post的缘故是最近整理机器学习的相关公式,经常要用到KaTex, 但网络上搜索到的西瓜书符号表的表示有些并不准确或者严谨,本着严谨治学的态度,整理了一下符号表的KaTex表示,希望有所帮助,整理过程中参考了《南瓜书》和 KaTex官方文档
2024-10-26 11:50:17
1290
原创 GGUF和GGML格式介绍与比较
近年来,随着大语言模型(LLM)的迅速发展,如何高效地存储和部署这些模型成为了一个重要的课题。GGML和GGUF是两种为此而生的文件格式,它们在LLM领域发挥着重要作用。本文将介绍这两种格式的特点,并对它们进行比较。
2024-10-25 19:06:11
917
原创 uv: 一个统一的Python包管理工具
uv是一个功能强大、简单易用的Python包管理工具,集成了端到端的解决方案。它在性能和可靠性上都有突出的优势。无论是小型脚本还是大型项目,从初学者到专家,uv都能很好地满足Python开发的各种需求。Astral公司希望通过uv来降低Python开发的复杂度,提高生产力。如果你在内部使用uv,并有兴趣在Python打包方面与Astral合作,欢迎联系他们,共同应对未来的挑战。
2024-10-25 17:28:09
7903
原创 ASP.NET Core开发Chatbot API
本文介绍基于的Chatbot开发,通过调用大语言模型的SDK,完成一个简单的示例。并且通过容器化进行部署.
2024-10-24 10:24:09
1160
原创 Orleans - 构建分布式系统的利器
Orleans 是由微软开发的一个开源分布式应用框架,它基于 Actor 模型,采用了一种称为 “Virtual Actor” 的概念。Orleans 可以帮助开发者轻松构建可伸缩、高可用的分布式应用,从单个服务器扩展到全球分布的云服务。
2024-10-24 08:23:49
923
原创 中心极限定理的Python实践
最近在读扩散模型相关的几篇paper,中间有对概率论的大篇幅引用. 在DDPM的推导中,用到了中心极限定理.中心极限定理是概率论和统计学中的一个核心定理,它揭示了大量独立随机变量之和的分布规律。本文将深入探讨中心极限定理的原理、意义、历史以及如何通过Python代码来验证这一重要定理。
2024-10-15 20:07:41
903
原创 Docker日志管理:深入理解docker logs命令
命令用于查看Docker容器的日志输出。它可以显示容器内部应用程序的标准输出(stdout)和标准错误(stderr)。其中,CONTAINER是容器的名称或ID。命令是管理Docker容器日志的利器。通过灵活运用其各种选项和高级用法,你可以更好地查看、过滤和存储容器日志,从而提高问题定位和调试的效率。同时,选择合适的日志驱动也很重要,特别是在大规模Docker环境中。希望本文能够帮助你全面了解命令,提升你的Docker日志管理技能。让我们一起努力,打造可靠高效的Docker化应用吧!
2024-10-15 13:49:04
2478
原创 NLUX:打造 AI 对话界面的强大框架
NLUX 是一个开源的 JavaScript 和 React 库,用于快速构建对话式 AI 界面。它提供了一系列组件和 API,让开发者能够轻松地与 ChatGPT 等 AI 模型集成,打造出功能丰富、交互友好的 AI 对话应用。用户界面层🎨 - 负责渲染屏幕上的所有内容,如用户和 AI 的消息、输入框等,并提供事件监听器、钩子等。API 层📡 - 提供与聊天机器人编程交互的 API,实现发送消息、获取对话历史等操作。适配器层。
2024-10-14 20:06:32
1831
原创 Flash Attention:高效注意力机制的突破
Flash Attention是注意力机制领域的重大突破,它通过巧妙的算法设计和硬件优化,实现了显著的速度提升和内存节省。作为AI工程师和研究者,了解并掌握Flash Attention对于构建高效的注意力模型至关重要。相信Flash Attention必将在未来的AI系统中扮演越来越重要的角色。
2024-10-14 19:34:04
1489
原创 DDPM浅析
DDPM作为一种新兴的生成模型,通过其独特的扩散和去噪过程,为生成模型领域带来了新的突破。虽然其采样速度相对较慢,但随着各种加速技术的发展,DDPM及其变体已经成为了当前最先进的生成模型之一,在图像、音频等多个领域展现出了巨大的潜力。随着研究的深入,我们可以期待看到DDPM在更多领域的应用,以及更多基于DDPM的创新模型的出现。扩散模型无疑将继续是未来一段时间内生成模型研究的热点方向。
2024-10-14 19:28:10
780
原创 FastAPI中的流式响应:实现实时数据传输
在Web应用程序开发中,有时我们需要处理大量数据或长时间运行的操作。在这些情况下,传统的一次性响应可能会导致客户端长时间等待,甚至超时。这就是流式响应(Streaming Response)发挥作用的地方。
2024-10-13 21:51:52
2548
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人