- 博客(321)
- 资源 (1)
- 收藏
- 关注
原创 计算文章的相似度
余弦相似度:基于向量空间模型,适合中等长度文本Jaccard相似度:基于集合运算,计算简单快速SimHash:适合长文本,抗噪声能力强。
2025-11-05 21:03:25
575
原创 余弦相似度、矩阵分解、深度学习物品的复杂、非线性特征
基于用户的协同过滤 (User-CF)基于物品的协同过滤 (Item-CF)核心思想人以群分物以类聚推荐逻辑找到和你相似的用户,把他们喜欢而你没看过的推荐给你。找到你喜欢的物品的相似物品,推荐给你。好比你的好朋友给你安利东西。一个资深专家(比如音乐发烧友)根据你喜欢的歌,推荐同类型的歌。适用场景用户数相对较少,个性化强,社交属性强(如朋友圈)。物品数相对稳定,物品内在联系强(如电商、音乐)。例子小明喜欢《三体》和《哈利波特》,你也喜欢《三体》,所以把《哈利波特》推荐给你。
2025-11-05 20:52:43
698
原创 算法推荐开发java
对于中小型系统或原型:可以使用Spring Boot + 纯Java ML库(如Tribuo/Smile)快速搭建。对于大型生产环境:通常是Spring Boot微服务 + Spark(做离线训练) + Redis(缓存) + 向量数据库(如Milvus做快速ANN检索)的架构。
2025-11-05 20:46:12
719
原创 虚拟机原理
虚拟机的核心思想是“隔离与抽象”。想象一下,你有一台强大的物理计算机(称为主机 Host),它的硬件资源(CPU、内存、硬盘、网卡等)是固定的。虚拟机技术允许你在这台物理机上,通过一个特殊的软件层,模拟出多台独立的、完整的计算机。这些被模拟出来的计算机就是虚拟机(Guest)。每台虚拟机都像一台真正的电脑:拥有自己的虚拟CPU、虚拟内存、虚拟硬盘、虚拟网卡。可以独立安装操作系统(如 Windows, Linux)和应用程序。虚拟机之间的操作是相互隔离的,一台虚拟机崩溃不会影响其他虚拟机或主机。
2025-11-05 20:24:11
862
原创 微信公众号消息推送java
System.err.println("发送失败 openId: " + openId + ", 错误: " + e.getMessage());throw new RuntimeException("微信模板消息发送失败", e);throw new RuntimeException("客服消息发送失败", e);throw new RuntimeException("图文消息发送失败", e);data.put("first", "您好,您有新的订单通知");// 根据消息类型处理。
2025-11-05 20:17:32
730
原创 vue项目的项目结构
从简单开始:不要一开始就设计一个非常复杂的结构。从一个标准结构开始,随着项目复杂度的增加再逐步重构。保持一致性:在整个项目中保持命名和结构的一致性。组件命名:组件文件名使用PascalCase(如单一职责:每个文件/组件应该只负责一个明确的功能。使用别名(Alias):在或中配置路径别名(如指向src),可以避免复杂的相对路径。
2025-11-03 21:36:31
704
原创 支付宝支付业务
在支付宝开放平台获取AppID、商户私钥、支付宝公钥。:配置异步通知地址和同步返回地址。:通过查询接口获取订单状态。:支持全额或部分退款。
2025-10-31 20:18:07
190
原创 dubbo和springcloud的差别
Dubbo像是一把锋利的手术刀,在服务调用这个点上做到了极致。像是一个功能齐全的瑞士军刀,为你提供了构建分布式系统所需的全套工具。选择哪一个,取决于你的团队背景、技术栈、性能要求以及你对“生态完备”和“极致性能”的权衡。对于大多数初创公司和中小型项目,从开始是一个更稳妥和高效的选择。而对于性能敏感、内部系统复杂的大型互联网公司,Dubbo或其与 Spring Cloud 的混合架构可能更具吸引力。
2025-10-29 20:02:17
649
原创 大日志量存储处理
动态分区创建: 自动预创建未来分区灵活分片算法: 支持任意年份的时间分片配置化策略: 可调整的分区规则和参数自动数据迁移: 年度数据归档和清理健康监控: 实时监控分区状态和容量管理接口: 提供手动干预的API通过这些方案,日志分区系统可以自动适应时间推移,无需人工干预即可处理2025年及以后的数据。
2025-10-29 19:59:03
743
原创 netty异步日志架构
异步化: 使用Disruptor等无锁队列,避免阻塞IO线程分级处理: 不同级别日志采用不同处理策略批量操作: 合并小操作,减少IO次数流量控制: 自适应限流,保护系统稳定性多级存储: 热温冷数据分层存储降级策略: 系统压力大时自动降级监控告警: 实时监控处理状态通过这些方案,可以有效处理10万+ TPS的日志流量,同时保证系统稳定性。分库分表: 按时间和业务分片,分散压力数据压缩: 对大文本字段进行压缩存储批量写入: 使用JDBC批量插入,提高吞吐量读写分离: 查询走从库,写入走主库分层存储。
2025-10-29 19:58:36
915
原创 netty支持10万高并发
java// 协议格式: [长度4字节][类型1字节][数据N字节]// 编码器return buf;// 解码器@Overridereturn;return;架构设计: 合理的主从Reactor线程模型参数调优: 系统和Netty参数优化内存管理: 使用内存池和对象池异步处理: 避免阻塞IO线程协议设计: 高效的数据编解码监控告警: 实时监控系统状态通过以上方案,Netty完全可以支撑10万甚至更高并发的场景。
2025-10-29 19:45:04
642
原创 秒杀业务开发java版
java@Component// 监控分表数据量/*** 记录慢查询*/log.warn("慢SQL查询: {}, 执行时间: {}ms", sql, executionTime);/*** 获取分表数据量统计*/i < 16;i++) {水平扩展:支持海量数据存储高性能:分散读写压力高可用:多库冗余,故障隔离易维护:标准化的分片策略和迁移方案。
2025-10-29 19:38:47
600
原创 动态规划算法
动态规划(Dynamic Programming)通过将复杂问题分解为更小的子问题,并存储子问题的解来避免重复计算。// 选择当前物品或不选择。// 如果已经计算过,直接返回结果。每次可以爬1或2个台阶,爬到第n阶有多少种方法。// 逆序遍历避免重复计算。最优子结构:问题的最优解包含子问题的最优解。// 计算并存储结果。重叠子问题:子问题会被重复计算多次。记忆化:存储已计算的子问题结果。
2025-10-27 22:20:30
960
原创 五行八卦知识介绍和科学的关系
比如,你八字中“火”元素过多,而“水”元素过弱,这就在模型上形成了一种“不平衡”。:通过摇卦等方式得到一个具体的卦象(如“雷水解”卦),这个卦象代表了当前事态的状态。:一个生态系统中,狼的数量减少会导致鹿群激增,进而破坏植被,影响水土保持,最终改变整个地貌和气候。算命,在学术上常被称为“术数”或“占卜”,是指利用五行八卦等理论,通过一套特定的推演方法,来预测人生命运、吉凶祸福的一整套技术。:看模型中各种元素是相生(促进)还是相克(抑制),哪种过强,哪种过弱,从而判断“平衡”与“失衡”。
2025-10-20 22:46:39
560
原创 伤寒杂病论
他反对滥用汗、吐、下法,强调“阴阳自和者,必自愈”,治疗的根本目的在于恢复人体阴阳气血的平衡与和谐。表现为“四大症”——大热、大汗、大渴、脉洪大(经证),或潮热、谵语、腹痛、便秘(腑实)。:对药物的煎煮方法(如麻黄先去上沫)、服用方法(如顿服、分温再服)和药后护理(如喝粥、温覆取汗)都有明确要求,确保了疗效的最大化。先辨病(是伤寒还是杂病),再辨证(属于六经中的哪一经,或脏腑中的哪一脏),最后根据具体的“证”来选方用药。:书中记载了汤、丸、散、膏、酒、栓等多种剂型,针对不同病情选择最合适的给药途径。
2025-10-20 22:37:24
1058
原创 黄帝内经简介
夜卧早起,广步于庭,被发缓形” —— 不仅要散步,还要披散头发,穿着宽松,让身体和精神都尽情舒展,以利。,通过经络系统,联系六腑、五官、形体、官窍,构成一个统一体。这是《内经》最伟大的思想,标志着医学的最高目标不是“治已病”,而是“治未病”,与现代预防医学的理念高度一致。“夜卧早起,无厌于日” —— 要厌恶日长天热,主动适应,让身体适当出汗,使。:“恬惔虚无,真气从之,精神内守,病安从来” 是养生的最高心法。它所说的“心、肝、脾、肺、肾”,:反对的“以酒为浆,以妄为常,醉以入房”,本质是反对。
2025-10-20 22:30:49
908
原创 中医养生篇
不仅指分量(七分饱),也指节奏(定时定量)、和节制(避免肥甘厚味)。强调“动静结合”,运动以“微微汗出”为度,避免大汗淋漓耗伤阳气。:选择天然、新鲜的食物,减少加工食品摄入,本质是“减负”。:关于“心经当令”在22:00-2:00,更精确的说法是。中医强调“天人相应”。(对应肝):重在“生发”,宜踏青、吃嫩芽绿叶菜。(对应心):重在“生长”,宜适度出汗、避暑养心。(对应脾):重在“化湿”,宜健脾利湿,忌贪凉。(对应肺):重在“收敛”,宜防燥、润肺。
2025-10-20 22:24:17
387
原创 中医基础知识和核心知识
人到中年知道了养生的重要性,对医道佛有了很深的兴趣,学习中医的过程让我发生了很大的变化,个人的性格受到了很大的塑造。:不同的疾病,在其发展过程中出现相同的“证”,则可以采用相同的治法。:是疾病在发展过程中某一阶段的病理概括(包括病因、病位、病性、邪正关系)。它反映了疾病的本质。:通过四诊收集信息,进行分析、综合,判断出“证型”(如:风寒感冒、肝阳上亢、脾肾阳虚)。:根据“证”的结果,确定相应的治疗方法(如:辛温解表、平肝潜阳、温补脾肾)。:听声音(语言、呼吸、咳嗽)和嗅气味(口气、体味、分泌物)。
2025-10-20 22:19:47
1031
原创 DNS解析原理及工作流程详解
较短的 TTL 便于快速更改记录,较长的 TTL 能减少查询次数,提升速度。如果有记录且未过期,它就直接返回结果,流程结束。它是域名所有者设置的服务器,存储着该域名下所有主机记录(如。没有 DNS,我们就只能通过直接输入 IP 地址来访问网站,这几乎是不可能的。:我们很难记住一串数字组成的 IP 地址,但可以轻松记住有意义的域名。然后,解析器将 IP 地址返回给用户的操作系统,操作系统也可能缓存它。表示,是这棵树的根,全球有13组(注意是组,而非台)根服务器。的 IP,无论你问谁,找到后直接告诉我结果。
2025-10-19 11:01:13
850
原创 深度学习与自然语言处理
核心思想:梯度下降是一种用于最小化损失函数的迭代优化算法。在深度学习的语境下,它的目标是通过调整模型的参数(权重和偏置),找到使损失函数值最小的那个参数组合。你所在的位置:代表模型当前参数值对应的损失函数值。山的地形:代表整个损失函数。山脚:代表损失函数的最小值,也就是模型的最佳参数点。你的目标:找到最快下山的路,到达山脚。梯度是一个向量(矢量),它指向函数值增长最快的方向。那么,它的反方向(负梯度方向)自然就是函数值下降最快的方向。
2025-10-15 20:37:59
534
原创 Java算法题
在技术笔试中,算法题主要考察对基础数据结构(数组、链表、树、栈 / 队列、图)的掌握,以及经典算法思想(动态规划、贪心、查找排序、回溯)的应用。以下按分类,整理高频笔试算法题,包含题目描述、核心思路与代码实现(以 Java/Python 为主,兼顾可读性与效率)。
2025-10-14 22:51:01
1053
原创 Java的api链路优化
Xms4g -Xmx4g \ # 堆内存初始和最大设为相同,避免动态调整。maximum-pool-size: 20 # 根据数据库和服务器配置调整。max-lifetime: 1800000 # 连接最大生命周期(ms)idle-timeout: 600000 # 空闲连接超时(ms)connection-timeout: 3000 # 连接超时(ms)
2025-10-14 22:35:35
880
原创 Java高并发知识
ThreadFactory threadFactory, // 线程工厂:可定制线程名、优先级等。int corePoolSize, // 核心线程数:即使空闲也不销毁的“常备军”int maximumPoolSize, // 最大线程数:池子的“总兵力上限”,它定义了线程和主内存之间的交互关系,屏蔽了底层CPU缓存差异,并通过。:穿透(布隆过滤器)、击穿(互斥锁)、雪崩(随机过期时间)。:不合理的锁粒度、线程池配置错误、任务阻塞、线程池未关闭。
2025-10-14 22:31:31
639
原创 小模型的应用
离线语音助手(响应<0.5秒)、相机人像模式(实时背景虚化)、输入法智能联想(学习个人习惯)。:通过蒸馏、微调等技术继承大模型能力,在具体场景中执行精准、高效的实时任务。:通过分析振动、温度数据,提前预警机械臂轴承磨损、电网过载风险。:实时检测产品划痕、变形(准确率>99%)、印刷品色差与模糊。:本地生成文档摘要、实时生成会议多语言字幕,保障企业数据安全。:实时识别行人、障碍物,本地触发紧急刹车(响应<10毫秒)。:数据隐私(病历/影像)、诊断辅助精准、适应基层。:海量设备、低带宽、低功耗、实时控制。
2025-10-14 22:14:24
442
原创 大模型引言
它不像传统AI那样是“专才”(如下围棋的AlphaGo只会下围棋),而是一个“通才”,能够通过自然语言对话,灵活处理各种任务,如回答问题、撰写文章、翻译、编程、逻辑推理等。当以上三个维度突破某个临界点后,模型会“突然”展现出小模型所不具备的复杂能力,如逻辑推理、代码生成、理解微妙语义等。参数越多,模型的“脑容量”就越大,能存储和理解的规律、知识就越复杂、越细微。:基于“一个词的出现概率只由其前面几个词决定”的假设,进行简单的词频统计。大模型的演进是一场从“死记硬背”到“深刻理解”的进化史,其核心驱动力是。
2025-10-14 22:00:46
682
原创 大模型学习大纲
什么是大模型?为什么是“大”?大模型的发展历程:从统计语言模型到神经网络语言模型再到Transformer。大模型的核心能力与局限性。关键概念:预训练、微调、提示、涌现能力。
2025-10-13 22:21:19
888
原创 Spark和Flink差异
Spark 可以被看作是一个“高速、通用的批处理引擎”,并通过微批实现了强大的流处理能力。Flink 则是一个“真正的流处理引擎”,并自然地将批处理视为流的一种特殊情况。趋势:随着物联网和实时化需求的爆发,真正的流处理变得越来越重要。Flink 凭借其先进的流处理模型,近年来发展迅猛,已经成为实时计算领域的事实标准。而 Spark 也在持续改进其结构化流模块,努力缩小与 Flink 在流处理上的差距。追求极致的实时性和有状态流处理,选 Flink。以批处理为主,或对实时性要求不极端,选 Spark。
2025-10-13 22:03:41
677
原创 编译原理核心知识点
大模型中的“对齐”(Alignment)指调整模型行为,使其与设计者的目标、价值观或人类意图保持一致。核心目标是确保模型输出符合伦理、安全且实用,避免产生有害、偏见或偏离预期的内容。
2025-10-13 21:55:44
1035
原创 什么是语言模型
虽然像 BERT 这样较小的模型是公开发布的,但像 GPT-3 这样较新的模型是封闭的,只能通过 API 访问。在正常的监督学习中,人们指定一个输入-输出对的数据集,并训练一个模型(例如,通过梯度下降的神经网络)来拟合这些示例。一个重要的警告是,语言模型(或任何技术)在工业中的使用方式是复杂的。首先,我们所说的"大"是什么意思?这些概率是基于各种 n-gram(例如,"吃了 这 老鼠"和"吃了 这 奶酪")在大型文本语料库中出现的次数计算的,并经过适当平滑以避免过拟合(例如,Kneser-Ney 平滑)。
2025-10-11 23:00:18
940
原创 deepseek本地化部署
从Hugging Face下载对应模型。:安装CUDA、PyTorch等依赖。# 安装Ollama后直接运行。:根据需求选择Ollama、:最新版本,性能强劲。
2025-10-08 13:20:00
394
原创 什么是模型微调
模型微调指的是在一个已经预训练好的模型基础上,使用特定领域或特定任务的数据,对该模型的参数进行进一步的调整(即“微调”)的过程。预训练模型:一个读过万卷书、知识渊博的通用型大学毕业生。他拥有广泛的通用知识(例如,语言结构、世界常识、物体形状等)。微调:让这位毕业生去从事一份特定的专业工作(例如,法律顾问、医疗诊断、客服机器人)。公司会给他一些该领域的专业资料(微调数据),让他快速适应新的岗位要求,而不是让他从零开始学习。核心思想是“迁移学习”
2025-10-08 13:16:38
948
原创 提示词工程
提示词工程是一门设计和优化输入指令(即“提示词”)的科学与艺术,其目的是为了从人工智能模型(尤其是大语言模型如GPT系列、文心一言等)中获取更准确、相关、有用和符合预期的输出。简单来说,它就像是学习如何与一个非常聪明但“死板”的AI进行高效沟通的“语言”。你说的越清楚、越具体,AI给出的答案就越让你满意。
2025-10-08 13:13:37
196
原创 深度学习和机器学习的区别,联邦学习和隐私计算的区别
是达成这个目标的一种方法:每家工厂(数据源)用自己的秘方(本地数据)按照统一的配方(模型)进行试验,只把试验结果的改进建议(模型更新)汇总到一个中央厨房,由中央厨房调整配方后,再分发给各家工厂。:像把秘方锁进一个特制的保险箱(加密),厨师可以对这个保险箱进行操作来调制饮料,打开保险箱后得到的就是最终成品,但操作过程中没人能看到里面的秘方。:像几个厨师在一个黑屋子里,带着各自的秘方进去,通过一套复杂的规则共同操作,最终得到新饮料的配方,但谁也没看清别人的秘方。是实现这个目标的其中一辆“车”。
2025-10-08 13:08:59
1156
原创 rag的评估优化应用前景
采用Hit Rate和Mean Reciprocal Rank衡量检索模块效果,BLEU和ROUGE评估生成质量。改进检索模块可通过增强向量搜索与关键词搜索的混合策略,结合稠密检索和稀疏检索优势。企业知识管理场景中,RAG系统可连接CRM、ERP等内部数据库,生成定制化业务分析。结合多模态检索技术,未来可扩展至图像、视频等内容生成。探索检索增强与参数高效微调的结合,如LoRA-RAG架构。研究增量检索机制优化长文本处理效率,开发面向垂直领域的专用检索器。探索主动检索策略,让模型自主决定检索时机和内容。
2025-10-08 13:02:50
285
原创 Semaphore
信号量是一种用于控制多线程/多进程访问共享资源的同步机制,由荷兰计算机科学家Dijkstra提出。其核心是一个整数计数器,结合原子操作(如。信号量作为基础同步工具,理解其原理对操作系统和并发编程至关重要。以下展示使用POSIX信号量()来实现线程阻塞与唤醒。
2025-10-08 12:58:25
320
原创 分布式api调用时间优化和问题排查
对于大型JSON payload,考虑使用Protocol Buffers或Avro替代JSON。引入缓存机制降低重复计算,对热点数据采用Redis或Memcached缓存结果。设置合理的过期策略,平衡数据一致性与性能。分析网络延迟和丢包率,利用traceroute和ping检测网络状况。优化序列化/反序列化性能,选择高效的序列化框架。优化数据库查询和连接池配置,避免N+1查询问题。实施渐进式发布策略,通过A/B测试或蓝绿部署控制变更风险。使用连接池复用TCP连接,减少三次握手开销。等技术实现并发控制。
2025-10-08 12:47:03
296
原创 Java高并发常见架构、处理方式、api调优
采用分层设计(如Controller-Service-DAO),结合线程池隔离不同层级的任务,避免资源竞争。例如,Web层使用NIO(如Netty),业务层使用异步处理。以上方案需根据实际业务场景组合使用,通过压测工具(如JMeter)验证效果,持续监控(如Prometheus+Granfa)调整参数。基于消息队列(如Kafka、RocketMQ)解耦系统组件,通过事件发布/订阅模式实现异步处理,提升吞吐量。数据库层通过MyCAT或ShardingSphere拆分数据,配合主从复制降低单库压力。
2025-10-08 12:26:41
380
原创 llm+agent+dify+mpc详解
LLM是基于海量数据训练的深度学习模型(如GPT、PaLM),擅长自然语言生成与理解。核心能力包括文本生成、代码补全、多轮对话等。Agent是能自主决策的系统,结合LLM后形成“LLM-based Agent”。如需进一步探讨某一部分(如MPC的密码学实现或Dify的具体操作),可提供更细化的方向。
2025-10-08 12:14:10
268
Jasper_studio_manual.中文版
2018-02-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅