- 博客(673)
- 资源 (1)
- 收藏
- 关注
原创 数据库优化实战分享:高频场景下的性能调优技巧与案例解析
优化从理解业务出发,不能只看 SQL 逻辑;小步快跑,持续迭代,不要一次性调整全部结构;数据归档与冷热分离是长效手段,利于数据库可持续运营;监控是前提,评估是基础,优化是手段,响应是目标。数据库优化是一场持久战,只有将系统架构、开发习惯、监控手段、数据治理等环节协同考虑,才能真正构建一个稳定、高效、可扩展的数据平台。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-06-05 21:10:41
815
原创 为什么你写的技术文档没人愿意读?这5个误区请避开
让我们回顾一下五个高频误区:写给自己,而不是写给读者结构混乱,信息分散忽略使用场景,无法实际落地不更新,信息滞后读者体验差,阅读门槛高避免这些误区,你的技术文档将不再是“沉睡文件”,而是推动团队高效协作的活性资产。📌 结语:写文档,不是低技术含量的工作,而是高认知价值的设计活动。它不仅写“技术”,更写“协作”、“标准”、“系统性思考”。在技术的浩瀚海洋中,一份好文档,就是指引团队远航的“灯塔”。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-06-05 07:45:00
510
原创 团队协作的隐形基座:技术文档的“共识力”设计
不是所有文档都有“共识力”。只有那些能真正被读、被理解、被反馈、被演进的文档,才具备“协作支点”的价值。如果把代码比作机器的肌肉,那文档便是协调一切的神经网络。打造高质量技术文档,其实是打造高质量的团队“共识力”。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-06-04 16:33:51
439
原创 技术文档的力量:从“写给自己”到“照亮他人”的转变之路 ✍️
技术文档不仅是项目的附属物,它本身就是一种“技术产出”。你在写文档时越清晰,就说明你对系统越熟悉;你越能让他人看懂,就越能帮助团队高效运行。“优秀的技术,不应只藏在代码里,也应写在文档里,传给后来者。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-06-04 16:31:04
352
原创 IS论文分享Estimating the Impact of “Humanizing” Customer Service Chatbots
这篇论文《Estimating the Impact of “Humanizing” Customer Service Chatbots》由 Scott Schanke、Gordon Burtch 和 Gautam Ray 撰写,发表在《Information Systems Research》上。论文通过实地实验研究了“人性化”人工智能(AI)驱动的客户服务聊天机器人(chatbots)对交易转化率和客户对报价敏感度的影响。
2025-04-28 12:15:00
1092
原创 基于 Python 的自然语言处理系列(87):RRHF 原理与实战
RRHF(Rank Responses with Human Feedback)本质上是一种排名监督方法,用于训练语言模型更好地按照人类偏好进行响应排序。RRHF 训练流程:输入一个指令query;提供多个候选回答responses;根据人工打分scores排出优劣顺序;鼓励模型为得分高的回答生成更高对数似然;采用一种对比性排序损失函数 + SFT 监督损失。相比于 PPO、DPO 等强化学习方式,RRHF:✅ 更简单(只需打分,无需 reward model)
2025-04-27 08:00:00
439
原创 基于 Python 的自然语言处理系列(86):DPO(Direct Preference Optimization)原理与实战
传统 RLHF 流程包括三个阶段:有监督微调(SFT)、奖励模型训练(RM)与强化学习(PPO)。而 DPO(Direct Preference Optimization)提出了一种无需显式奖励模型与价值函数的替代方案:假设模型本身隐式表示了奖励函数;通过比较“优选(chosen)”与“被拒(rejected)”的响应,在 KL 约束下最大化偏好概率差异;更易于训练和部署,显著简化 RLHF 流程。维度PPODPO是否需 Value Head✅ 需要❌ 不需要奖励函数外部 RM。
2025-04-26 12:30:00
663
原创 一文搞懂 MCP 协议:AI 智能体时代的“USB-C 通信接口”
就像 HTTP 成就了 Web,USB-C 统一了数据接口,MCP 正在为 AI Agent 世界定义一种“共同语言”:对开发者:开发更轻松,模块更易复用;对系统:多 Agent 管理更有序、调度更高效;对用户:体验更连贯、交互更人性。如果你正构建 LLM 应用、多智能体系统,MCP 值得你深入了解并尝试落地。📌 想要尝试 MCP 框架?推荐从开始,它是目前最早原生支持 MCP 的开源智能体平台,支持 Agent DSL 和调度引擎,开箱即用,适合个人开发者和企业团队实践。
2025-04-26 08:00:00
824
原创 基于 Python 的自然语言处理系列(85):PPO 原理与实践
阶段描述数据构建利用 IMDb 构造简短语料用于语言生成模型构建加载 GPT2 并构建 Value Head 以评估奖励奖励模型使用 DistilBERT 进行情感打分作为奖励信号PPO 训练利用 TRL 中的 PPOTrainer 实现语言强化优化PPO 是 RLHF 中至关重要的一环,在人类反馈基础上不断微调模型的输出质量,是当前 ChatGPT、Claude 等大模型背后的关键技术之一。📘。
2025-04-25 14:15:00
1233
原创 用 Python 玩转 AI 图像生成:从代码到艺术,创作你的视觉宇宙!
AI 图像生成不是让艺术失去意义,而是给我们每个人都赋予了“创作的权力”。无论你是开发者、设计师,还是单纯热爱创作的人,Python + AI 的组合为你打开了视觉表达的新世界。写一行代码,就可能诞生一个世界、一个角色、一个梦。🧠 不妨从今天开始,用 Python 创作属于你的 AI 视觉宇宙吧!欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-25 08:00:00
600
原创 IS论文分享Less Artificial, More Intelligent: Understanding Affinity, Trustworthiness, and Preference f
这篇论文《Less Artificial, More Intelligent: Understanding Affinity, Trustworthiness, and Preference for Digital Humans》由 Mike Seymour、Lingyao (Ivy) Yuan、Kai Riemer 和 Alan R. Dennis 共同撰写,发表在《Information Systems Research》上。
2025-04-24 14:00:00
567
原创 基于 Python 的自然语言处理系列(84):SFT(Supervised Fine-Tuning)原理与实现
SFT 是 RLHF 训练管线中的基石步骤,为后续的奖励建模(RM)和强化学习(PPO)打下良好基础。模式名称数据类型特点基础微调IMDb(纯文本)适合情感分析、语言建模指令微调CodeAlpaca(问答对)对齐生成任务,如问答、摘要Alpaca 样式微调更复杂结构,适用于多任务下一篇我们将进入 RLHF 管线的收尾阶段——。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-24 13:00:00
1460
原创 基于 Python 的自然语言处理系列(83):InstructGPT 原理与实现
本篇我们复现了 InstructGPT 的核心训练框架,依赖于三大模块:语言模型(GPT2);奖励模型(RewardModel);强化训练器(RLHFTrainer + PPO loss)。通过引入人类反馈偏好作为优化目标,InstructGPT 展现出更强的任务理解与指令遵循能力,已经成为 ChatGPT 训练体系的核心组成部分之一。
2025-04-23 13:00:00
466
原创 拿下微软认证不是梦!MCP考试高频难题实战破解指南
通过 MCP,不只是拿下一张证书,更重要的是构建起你在 IT 架构、系统部署、安全管理等方面的综合技术能力。如果你曾在考试中“栽过跟头”,希望本文的实战技巧能让你少走弯路、多得分,真正做到“知其然,知其所以然”。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-23 08:00:00
830
原创 Cangjie Magic 智能体规划引擎架构与优势解析
作为一款面向未来的开源智能体开发平台,Cangjie Magic 以其独特的 Agent DSL 架构和 MCP 协议支持,为复杂AI任务的规划与执行提供了系统化解決方案。在与其他 LLM Agent 框架的对比中,它凸显出声明式编程多智能体协同和自动化调度方面的领先优势。无论是企业级的多Agent系统开发,还是新兴的情感智能交互应用,Cangjie Magic都展示出强大的适应性与创新性。展望未来,我们期待有更多开发者参与其生态,共同探索多智能体时代下更高效、更人性化的AI应用,实现技术与人文的交汇共鸣。
2025-04-22 13:15:00
1055
1
原创 【KWDB 创作者计划】_实操体验(3):我用 KWDB 做了个 IoT 温湿度可视化监控系统
至此,《KWDB 创作者计划》的技术解读篇(7 篇)+ 场景实战篇(3 篇)+ 实操体验篇(3 篇)共 13 篇文章全部完成。我们从底层原理到项目实战,从性能压测到部署落地,全面解构并验证了 KWDB 的工程能力与产业适配价值。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-22 08:00:00
328
原创 IS论文分享Mr. Right or Mr. Best: The Role of Information Under Preference Mismatch in Online Dating
研究用户在设计个人资料时选择披露或隐藏哪些信息对匹配结果的影响。
2025-04-21 14:00:00
2238
原创 【KWDB 创作者计划】_实操体验(2):KWDB 2.2.0 性能压测报告与对比评估
性能,是数据库最具说服力的底气。作为国产多模数据库代表之一,KWDB 在高并发写入、复杂聚合查询、多维标签支持方面表现亮眼。那么它的真实表现究竟如何?本篇将基于 KWDB 2.2.0 版本,进行一轮系统性读写性能压测,同时对比主流时序数据库 TDengine,量化 KWDB 在关键指标下的性能表现。
2025-04-21 08:00:00
1308
原创 比赛想拿高分?蓝桥杯嵌入式开发实战技巧全攻略(含高效编程与调试方法)
蓝桥杯不是比谁写得快,而是比谁更稳、更准、更细节。掌握合理的开发结构 + 充足的函数模板 + 调试技巧,再加上比赛当天良好的节奏感,就能大幅提升你的发挥上限。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-20 13:15:00
1247
原创 【KWDB 创作者计划】_实操体验(1):KWDB 安装踩坑全记录(Docker 本地部署实战)
KWDB 的开源特性和工程能力令人兴奋,但“能跑起来”才是落地应用的第一步。本篇聚焦 KWDB 2.2.0 版本在本地环境的安装部署流程与踩坑过程,包括依赖环境准备、Docker 启动配置、端口访问、常见报错及排查方法。文章基于真实部署环境记录,附带脚本与调试建议,帮助大家避免重复踩坑。
2025-04-20 08:00:00
612
原创 基于 Python 的自然语言处理系列(82):Transformer Reinforcement Learning
本文将介绍一套完整的 RLHF(Reinforcement Learning with Human Feedback)训练流程,基于 Hugging Face 推出的 trl 库,从 SFT(Supervised Fine-tuning)、RM(Reward Modeling)、到 PPO(Proximal Policy Optimization)三大阶段,逐步实现对 Transformer 模型的强化学习优化。
2025-04-19 13:00:00
381
原创 【KWDB 创作者计划】_场景实战(3):能源系统中的亿级指标秒级写入与告警分析
实践经验建议标签设计尽量提前标准化编码,利于构建倒排索引时间维度查询使用显著优化查询路径聚合字段规划聚合查询使用HAVING控制计算量查询缓存对高频使用的 SQL 建议加一层应用层缓存(如 Redis)查询调优使用 EXPLAIN 分析执行计划,识别未命中索引的字。
2025-04-19 08:00:00
845
原创 装完不再出错!MySQL 安装实战全攻略(附常见问题解决方案)
安装问题快速解决服务装不上删除旧服务,检查端口连接失败检查服务 + 防火墙 + 密码命令行用不了配置 Path 路径GUI 工具报错更新 Workbench 或换 Navicat欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-18 13:00:00
556
原创 【KWDB 创作者计划】_场景实战(2):智能制造系统中的设备画像与数据驱动调优实践
在智能制造场景中,设备数据的流转与分析不再只是“记录运行状态”,而是成为生产系统调优、效率提升和异常预判的关键依据。尤其是在面对多类设备、多源数据、多维属性的复杂环境下,传统单一模型的数据存储方案往往力不从心。本文将结合某制造企业的数字化车间实践,介绍如何借助 KWDB 构建“设备画像”体系,并通过多模查询与分析,实现从数据中提取可落地的优化策略。
2025-04-18 08:15:00
587
原创 IS论文分享How Information Technology Overcomes Deficiencies for Innovation in Small and Medium-Sized Ent
创新输出,包括产品、制造流程、市场和行政流程的创新数量。
2025-04-17 12:45:00
795
原创 【KWDB 创作者计划】_场景实战(1):物联网平台中的高频设备数据采集与分析实战
在典型的 AIoT 场景中,如何高效采集、存储和分析数以百万计的设备高频数据,一直是行业关注的焦点。传统时序数据库往往面临“写入瓶颈、查询缓慢、扩展性不足”等问题,而 KWDB 在支持多模数据、秒级写入与跨模查询方面的设计优势,为 IoT 平台提供了新一代底座解决方案。本文将基于某实际项目案例,深入介绍 KWDB 在物联网高频数据采集与分析场景下的选型、架构、落地与优化实践。
2025-04-17 08:00:00
1157
原创 基于 Python 的自然语言处理系列(81):人类反馈强化学习实战指南
强化学习与人类反馈(Reinforcement Learning with Human Feedback, RLHF)是当下自然语言处理领域最热门的研究范式之一,ChatGPT 等模型的成功实践更是让 RLHF 炙手可热。相比传统的监督学习或非监督学习,RLHF 更关注“人类偏好”,即让语言模型生成的内容更贴近用户真实需求与喜好。本篇博文将完整演示如何:使用 GPT-2 + 自定义数据集完成 RLHF 的全流程;
2025-04-16 13:00:00
1032
原创 【KWDB 创作者计划】_技术解读(7):KWDB 技术全景图:我们从中学到了什么?
篇章编号标题关键词第1篇存储引擎原理与实现写入路径、列式压缩、WAL第2篇查询架构与跨模执行SQL 支持、融合执行器第3篇源码导读与构建实践工程结构、模块解读第4篇跨模查询实现机制HashJoin、统一接口第5篇聚合与窗口函数第6篇索引与优化策略倒排索引、谓词下推第7篇技术架构全景图设计哲学、模块协同欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-16 08:15:00
685
原创 一次搞定!SQL Server 2022 安装常见问题全解指南
SQL Server 2022 是非常稳定的企业级数据库,但安装过程中的一步错,可能步步坑。希望本文的常见问题排查清单能帮你理顺思路、快速上手。如果你在安装过程中遇到更特殊的报错,也欢迎留言交流!欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
2025-04-15 21:22:13
766
原创 【KWDB 创作者计划】_技术解读(6):如何让查询更快?索引结构与优化器策略全面解析
快速查询,是每一款数据库产品的立身之本。在数据量爆炸、分析维度复杂的 AIoT 场景中,“查询快”并不是一句口号,而是对底层索引设计、优化器策略、执行计划调度等多个模块协同的硬核要求。与,并结合源码与典型案例,分析其如何助力大规模数据高效查询。
2025-04-15 20:32:32
1073
原创 IS论文分享The Impact of Process- vs. Outcome-Oriented Reviews on the Sales of Healthcare Services
这篇论文《The Impact of Process- vs. Outcome-Oriented Reviews on the Sales of Healthcare Services》由Hongfei Li、Jing Peng、Gang Wang和Xue Bai撰写,发表在《Information Systems Research》2024年第35卷第4期。论文研究了过程导向和结果导向的评论对医疗保健服务销售的影响,填补了现有用户生成内容(UGC)研究在非体验性服务领域的空白,具有重要的理论和实践意义。
2025-04-14 13:15:00
2559
原创 【KWDB 创作者计划】_技术解读(5):如何实现高性能聚合?窗口函数与 GroupBy 的执行机制
KWDB 聚合函数是可扩展的,你可以定义自定义函数(UDF):步骤如下:实现一个函数类继承;注册到函数工厂中;在 SQL 中调用该函数。能力点说明支持秒/分钟/小时等时间粒度聚合流式 RecordBatch 管道避免大结果物化多维组合聚合多标签、多键支持灵活分组扩展性强支持自定义聚合函数(如 UDF)跨模数据支持可对时序 + 关系数据一体聚合下一篇我们将转入对索引机制与查询优化器的深度解读【KWDB 创作者计划】_技术解读(6):如何让查询更快?
2025-04-14 07:00:00
1006
原创 【KWDB 创作者计划】_技术解读(4):跨模查询是怎么做到的?从代码看融合算子的魔法
KWDB 在众多国产数据库中脱颖而出的一个重要特性,就是其**“跨模查询”能力** —— 即在同一个 SQL 查询中,同时处理时序数据与关系数据,无需中间表、ETL 或额外转化。这项特性背后,隐藏的是 KWDB 查询执行器、融合算子与统一数据访问接口的精妙设计。本篇将围绕这一能力展开,从核心原理讲起,结合源码还原“魔法背后的实现逻辑”。
2025-04-13 12:15:00
473
原创 基于 Python 的自然语言处理系列文章 (80):CoCa 模型原理与实现
CoCa(Contrastive Captioner)是 Google 提出的一种图文联合学习模型,核心思想是统一图文对比学习与图像字幕生成任务,实现一种通用的图文基础模型(Image-Text Foundation Model)。视觉编码器(Vision Transformer):提取图像 patch 表征;语言建模器(Transformer):对文本进行建模与解码;双任务目标文本生成任务(Captioning loss):通过自回归的方式生成描述;
2025-04-13 08:15:00
1038
原创 【KWDB 创作者计划】_技术解读(3):代码导读:带你从源码构建 KWDB
很多朋友在了解完 KWDB 的架构设计和关键特性后,都会有这样一个问题:“我想看源码,但从哪儿看起?”本篇文章将带你实地走一遍从 Gitee 克隆 KWDB 到成功构建、启动、调试的全过程。我们不仅会剖析项目的目录结构,还会定位核心模块、编译逻辑、运行脚本等,帮助你快速理清代码脉络,建立正确的源码地图。
2025-04-12 13:30:00
652
原创 基于 Python 的自然语言处理系列文章(79):BLIP-2 模型原理与实现
BLIP-2(Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models)是 Salesforce 提出的多模态大模型框架。与 CLIP 或 Flamingo 不同,BLIP-2 的核心思想是桥接预训练视觉编码器和大语言模型(LLM),实现高效的跨模态理解与生成能力,同时显著减少训练成本。BLIP-2 是当前多模态架构中非常有代表性的工作。图像与语言模块解耦,方便复用和替换。
2025-04-12 08:00:00
1040
原创 【KWDB 创作者计划】_技术解读(2):查询引擎架构与跨模融合计算实现
在大多数传统数据库中,时序模型和关系模型通常需要分别部署和查询。而 KWDB 通过引入“融合查询引擎”,实现了多模数据在统一 SQL 语法下的无缝检索。本篇我们将深入讲解 KWDB 查询引擎的核心设计:从解析器、执行计划生成、跨模优化器、到多源执行器的协同工作机制,并附带部分源码路径指引,助你真正理解“时序 + 关系”的一体化查询背后的技术力量。
2025-04-11 15:15:00
937
原创 基于 Python 的自然语言处理系列(78):Flamingo 模型原理与实现
Flamingo 是 DeepMind 在2022年推出的一种多模态视觉语言模型,目标是在少量样本学习 (Few-Shot Learning)场景下,实现对语言和图片的联合理解与生成。Flamingo 的核心思想是:在保持大规模语言模型保持预训练能力的前提下,插入模块,将图片提取的特征传入进来。根据它的设计,Flamingo 基于:图像编码器 (ViT)大规模 LLM (OPT / PaLM / GPT-like)模型合并了文本与图片信息,有效实现多模态学习。
2025-04-11 08:00:00
958
原创 IS论文分享Background Music Recommendation on Short Video Sharing Platforms
短视频分享平台(如TikTok、Douyin等)的兴起极大地改变了用户生成内容(UGC)的创作和分享方式。这些平台上,用户在上传视频时通常会选择背景音乐来增强视频的吸引力。选择合适的背景音乐不仅能提升视频的质量,还能增强观众的参与度,最终促进平台的发展。然而,面对平台上大量的音乐片段,用户需要一个高效的推荐系统来帮助他们快速找到合适的背景音乐。论文指出,现有的背景音乐推荐系统主要基于音乐和视频之间的匹配,而忽略了用户的个人偏好。此外,现有的推荐系统在处理新视频(无历史互动数据)时也面临挑战。
2025-04-10 13:30:00
1645
原创 基于 Python 的自然语言处理系列文章 (76):CLIP 模型原理与实现
CLIP(Contrastive Language–Image Pre-training)由 OpenAI 提出,通过对比学习方式,将自然语言监督引入视觉模型中训练。与传统视觉分类模型不同,CLIP 使用完整的自然语言描述作为监督信号,使模型可以理解“语言–图像”的语义对齐能力。CLIP 模型由两个主要部分组成:图像编码器(如 ResNet)文本编码器(如 BERT 或 DistilBERT)其训练目标是最大化图像与其匹配文本之间的相似度,并最小化与不匹配文本的相似度。
2025-04-10 08:00:00
1711
2016-2023年主要城市居民国庆月消费价格指数
2024-09-09
生命科学siRNA药物药效预测数据集
2024-09-04
论文MWEC支撑数据.zip
2021-09-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人