自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

kaggle expert,全球排名前1000,清华计算机研究生,兴趣算法工程

kaggle expert,全球排名前1000,清华计算机研究生,兴趣算法工程

  • 博客(1429)
  • 资源 (4)
  • 收藏
  • 关注

原创 必知必会!常用矩阵求导和重要的矩阵

转自https://blog.csdn.net/a841454735/article/details/88608682,来备份一下,矩阵求导很重要!一、矩阵求导  一般来讲,我们约定,这是分母布局。常见的矩阵求导方式有:向量对向量求导,标量对向量求导,向量对标量求导。1、向量对向量求导2、标量对向量求导3、向量对标量求导其他的可以参考wiki:维基百科矩阵求导公...

2020-04-25 22:18:20 1937

原创 程序员面试——C++工程师面试大全第一部分

1.static 关键字的作用1. 全局静态变量在全局变量前加上关键字 static,全局变量就定义成一个全局静态变量.静态存储区,在整个程序运行期间一直存在.初始化:未经初始化的全局静态变量会被自动初始化为 0(自动对象的值是任意的,除非他 被显式初始化);作用域:全局静态变量在声明他的文件之外是不可见的,准确地说是从定义之处开始,到文件结尾.2. 局部静态变量在局部...

2020-02-24 13:41:40 714

原创 大模型入门-大模型优化方法7

摘要: vLLM推理框架通过PagedAttention和连续批处理技术大幅提升大模型推理效率。PagedAttention借鉴操作系统分页机制,将KV Cache切分为逻辑块与物理块,通过块表动态管理显存,解决传统预分配策略导致的显存碎片问题,并支持请求间共享前缀(写时复制)。连续批处理则动态调度请求,实现GPU算力最大化利用。实验表明,该技术可节省37%-55%的KV内存,成为大模型高效推理的关键突破。

2026-05-30 00:26:11 534

原创 大模型入门-大模型优化方法5

混合精度训练是让模型既能“飞”起来(FP16 高吞吐),又能“稳”住(FP32 高精度)的核心工程手段。在当下的大模型训练中,它几乎是必选项。

2026-05-30 00:20:28 189

原创 大模型入门-大模型优化方法6

Flash Attention系列算法通过极致的工程优化,解决了大语言模型中注意力机制的内存和计算瓶颈。V1采用分块计算和在线Softmax技术,将内存占用从O(n²)降至O(n);V2通过减少非矩阵运算、优化循环顺序提升GPU利用率;V3进一步引入异步执行、流水线调度和FP8低精度计算,在最新硬件上实现性能极限。这一系列创新使计算速度提升2-4倍,内存占用降低10-20倍,支撑了现代大模型处理长文本的能力。

2026-05-30 00:18:50 393

原创 大模型入门-大模型优化方法4

摘要: 大模型推理中,KV Cache显存占用随文本增长线性爆炸,MQA和GQA成为优化关键。MHA(多头注意力)每个Query对应独立KV,显存消耗大;MQA让所有Query共享同一组KV,显存降至1/h(h为头数),但性能略有下降;GQA折中方案将Query分组,组内共享KV,显存降为h/g倍(g为组数),被LLaMA-2/3等主流模型采用。GQA通过repeat_interleave复制KV与Q对齐,代码实现高效。面试注意:仅缓存KV(因Q仅依赖当前词),且RoPE仅作用于Q和K(V无需位置编码)。

2026-05-29 00:45:09 384

原创 大模型入门-大模型优化方法3

KV Cache是大模型推理优化的核心技术,通过"空间换时间"策略显著提升生成速度。其核心思想是缓存历史Token的Key和Value矩阵,避免重复计算。具体实现分为预填充阶段(一次性计算Prompt的KV)和解码阶段(复用缓存并增量更新)。针对长文本场景,可采用窗口注意力、滑动窗口重计算或StreamingLLM(保留关键起始Token)等优化方案。此外,MQA和GQA架构通过共享KV进一步减少显存占用。代码示例展示了KV Cache如何通过缓存历史KV矩阵来避免冗余计算,实现高效推理。这一技术在不影响精

2026-05-29 00:42:00 430

原创 大模型入门-大模型优化方法1

本文深入探讨了大模型时代的两项关键技术革新:SwiGLU激活函数和RMSNorm归一化方法。SwiGLU通过结合Swish激活函数和门控线性单元(GLU)思想,采用双通道门控机制动态控制信息流通,解决了传统ReLU激活函数丢失负值信息的问题,显著提升了大模型在复杂任务中的表现。RMSNorm则通过简化传统LayerNorm的计算流程,仅保留缩放操作而移除均值计算,在基本保持模型性能的同时将计算效率提高了32%,为深层网络训练带来显著的算力节省。文章通过数学公式解析和Python/PyTorch代码实现,直观

2026-05-28 22:27:40 826

原创 大模型入门-大模型优化方法2

RoPE(旋转位置编码)是Transformer模型中一种创新的位置编码方法,通过旋转词向量来捕捉位置信息。相比于传统的绝对或相对位置编码,RoPE将词向量视为复数,在二维平面上进行旋转,使内积结果仅依赖于词间相对位置差。这种设计无需额外训练参数,通过数学变换将绝对位置转换为相对位置关系,支持长度外推。RoPE的高效实现利用三角函数和逐元素运算,适用于高维向量(分组处理)。其核心优势在于自然融合绝对位置与相对位置信息,成为LLaMA等大模型的主流选择。

2026-05-28 22:27:39 506

原创 大模型入门-大模型分布式训练2

本文介绍了大模型分布式训练中的关键技术:DeepSpeed ZeRO系列通过分片存储优化器状态、梯度和参数,实现显存高效利用;Sequence Parallel将长文本切分处理降低显存峰值;Expert Parallelism利用MoE架构的稀疏性提升吞吐量。文章还总结了混合并行策略的性能权衡,并列出5个面试核心问题,包括显存优化、通信机制、并发度平衡、MoE路由设计和混合并行拓扑优化。这些技术组合能有效解决万亿级大模型训练的显存和计算挑战。

2026-05-27 00:03:59 657

原创 大模型入门-大模型分布式训练1

本文系统介绍了大模型分布式训练的三大核心技术:数据并行(DP/DDP)、管线并行(PP)和张量并行(TP)。数据并行通过参数服务器或环形通信架构解决单卡显存不足问题;管线并行将模型按层拆分,采用微批次和1F1B策略优化计算效率;张量并行则对单层网络进行矩阵切割,实现更细粒度的计算分配。这些技术通过不同维度的并行策略,共同解决了千亿参数大模型的训练难题,为AI发展提供了关键基础设施支撑。

2026-05-27 00:03:45 730

原创 大模型入门-DAPO提高裁剪上限动态采样优化策略

综上所述,DAPO 算法直击痛点,通过Clip-Higher(突破低概率 token 涨幅限制)动态采样(保障有效梯度池)Token-Level Gradient Loss(绝对平衡长短回答梯度权重)以及软惩罚(约束水字数现象)等方法,对 GRPO 进行了精细化的全方位改造,显著提升了大模型对齐阶段的训练效率与稳定性。

2026-05-26 00:24:38 348

原创 大模型入门-GSPO 分组序列策略优化

摘要: 论文《GSPO: 分组序列策略优化》提出了一种改进的强化学习方法,针对传统GRPO在token级别优化时的高方差问题。GSPO将优化目标从token级调整为sequence级,通过整句概率比计算重要性权重,显著降低了训练噪声。实验表明,GSPO在Qwen3-30B模型上实现了更稳定、高效的训练,最终性能超越传统方法。该方法特别适用于长文本生成和MoE架构,解决了路由变化导致的梯度失真问题。核心创新在于序列级重要性采样和长度归一化机制,使模型更关注整体生成质量而非局部波动。

2026-05-26 00:24:00 486

原创 大模型入门-GRPO 组内相对策略优化

GRPO(组内相对策略优化)是一种改进的强化学习算法,通过组内对比优化策略更新。相比PPO,GRPO的核心创新在于:1)采用组内标准化计算相对优势(A_i^G=(r_i-μ_G)/(σ_G+ε)),激励样本超越组内平均水平;2)完全省去Value模型,大幅节省显存资源;3)通过KL散度约束策略更新幅度。实验表明,GRPO在保持生成质量的同时显著提升训练效率,尤其适合大模型对齐任务。其损失函数结合了剪切策略比和KL惩罚项,实现了更稳定的策略优化。

2026-05-25 00:13:01 530

原创 大模型入门-DPO 直接偏好优化

这种数据格式的核心作用是让 DPO 的损失函数(通过对比 chosen 和 rejected 的概率差异)有效优化模型,使其更倾向于生成 chosen 级别的回答。相比之下,PPO 的损失函数考虑了结果整体的分值(霸总逻辑:除非你能拿到高分,否则必须给我守规矩保持结果合理分布),因此在对齐的稳健性上 PPO 通常更胜一筹。DPO 需要的数据与 RLHF 一致,都是经过人工排序后的 QA 语料对。不同的是,DPO 训练数据的核心是“输入 - 优选回答 - 次选回答”的三元组结构。里面的部分最大化即可。

2026-05-25 00:07:57 513

原创 大模型入门-PPO 近端策略优化‌

PPO(近端策略优化)是一种强化学习方法,旨在优化语言模型生成高质量且分布合理的回答。其核心目标包括:1)保持回答分布与监督微调(SFT)模型相近,防止幻觉;2)提高回答得分。PPO涉及四个模型:Actor(目标模型)、Critic(预期收益计算)、Reward(实际收益计算)和Reference(约束模型)。训练步骤包括:Actor生成回答后,通过多模型评估计算优势(实际收益与预期收益之差),并优化Actor和Critic的损失函数。PPO通过重要性采样和剪裁机制控制更新幅度,确保训练稳定性。最终损失函数

2026-05-24 13:41:48 353

原创 大模型入门-大模型的推理策略

本文介绍了大语言模型生成文本时的两种主要推理策略:贪心解码和集束搜索。贪心解码在每一步选择概率最高的token,虽然简单高效但容易导致文本单调重复。集束搜索则保留多个候选序列(beam size=k),通过综合考虑历史分数和当前概率来优化生成质量。文章详细阐述了集束搜索的算法实现,包括候选序列维护、分数计算和终止条件处理,并提供了完整的Python实现代码。这两种策略在平衡生成质量和计算效率方面各有特点,集束搜索通过扩展搜索空间有效改善了贪心解码的局限性。

2026-05-24 13:41:17 669

原创 大模型入门-RL基础

本文通过班级考试的生动故事,通俗讲解了强化学习(RL)在大模型训练中的核心概念。故事中,学生(Actor)通过考试分数获得星星奖励(Reward),班主任(Critic)设置动态基准线评估进步,并引入截断(Clip)防止冒险行为,参考模型(Reference)则记录历史表现保持稳定。这些角色对应了RLHF训练中的四个关键模型:演员模型生成回答,评论家模型评估预期收益,奖励模型计算实际收益,参考模型防止模型偏离正常表现。文章最后总结了三阶段RLHF训练流程,形象展示了强化学习如何通过反馈和约束引导模型优化。

2026-05-23 00:05:07 588

原创 大模型入门-Reward 奖励模型训练

奖励模型训练是强化学习对齐(RLHF)的关键环节,其核心思想是通过人类对多个答案的相对排序(而非绝对打分)来训练模型。模型结构基于SFT模型,仅将最后一层改为单神经元输出得分。损失函数设计为最大化优质回答与劣质回答的得分差,通过两两组合训练(如A2>A1>A3的案例)使模型学习人类偏好。最终目标是让奖励模型自动评估回答质量,替代人工打分。

2026-05-23 00:04:51 196

原创 大模型入门-预训练、SFT 有监督学习

在大语言模型的整个训练生命周期中,是极为关键的“地基”工程。它为模型后续高效执行各种任务打牢了基础,深刻地影响着模型的最终性能与应用潜力。

2026-05-21 22:28:35 409

原创 大模型入门-Pre-Training、SFT、RLHF

预训练是大模型训练的第一阶段,指的是使用大型数据集对模型进行自监督训练。其核心思想是让模型学习并掌握世界通用的规律与知识,为后续的定向优化打下坚实的基础。先进行 Pre-Training,再在预训练模型的基础上针对特定数据集进行 Fine-Tuning。必须先进行 Pre-Training,随后再进行 SFT 和 RLHF。SFT(Supervised Fine-Tuning)是预训练之后的定向优化阶段。

2026-05-21 22:28:34 1609

原创 大模型入门-大模型蒸馏与微调3

**摘要:**QLoRA技术通过4位NF4量化、双重量化和高秩LoRA适配器,显著降低大模型微调显存需求,使13B模型仅需7GB显存。知识蒸馏则通过教师模型输出Soft Label指导学生模型训练,提升小模型泛化能力。DeepSeek案例显示,词表不一致时可能仅采用SFT微调,凸显高质量数据的重要性。两项技术共同推动大模型在资源受限场景下的应用落地。(149字)

2026-05-20 00:19:07 489

原创 大模型入门-大模型基础知识3

本文介绍了Transformer模型的核心组件及其工作原理。Transformer由Encoder和Decoder两部分组成,其中Encoder包含词嵌入层、多头注意力机制、残差连接和层归一化、前馈神经网络等模块。重点解析了位置编码的必要性、多头注意力机制的计算流程及其设计原理,以及层归一化与批归一化的区别。Decoder部分则采用掩码机制实现自回归生成,GPT等大语言模型采用精简的Decoder-only架构。在多模态应用中,完整的Decoder通过交叉注意力机制实现图文特征融合。Transformer的

2026-05-20 00:19:02 695

原创 大模型入门-大模型基础知识1

摘要:词向量Embedding是将自然语言转换为计算机可处理的数学表示方法。最初采用One-Hot编码存在维度灾难和无法计算词语相似度的问题。现代方法使用连续向量表示,通过多维特征评分解决这些问题。Word2Vec是典型训练方法,包括CBOW和Skip-gram两种模型。为提高效率,引入负采样技术,将多分类转为二分类任务。这些技术使计算机能有效理解语言语义关系,为自然语言处理奠定基础。(149字)

2026-05-19 00:08:24 543

原创 大模型入门-大模型基础知识2

摘要: Token是文本拆分的最小单元,分词(Tokenizer)将文本拆分为词元(token),便于后续处理。分词有四种粒度: 词粒度:保留完整语义,但词表庞大且易遇OOV问题; 字符粒度:解决OOV但语义稀疏且序列过长; 子词粒度(如BPE):平衡词表与语义,通过合并高频字符对构建词表; 字节粒度(如BBPE):跨语言通用但语义缺失。 BPE通过迭代合并高频字符对优化分词,BBPE进一步扩展至字节级别,增强多语言处理能力。两者均显著提升模型效率,BBPE尤其适合混合语言场景。

2026-05-19 00:08:20 374

原创 大模型入门-大模型蒸馏与微调2

本文介绍了两种参数高效的轻量级微调方法:Adapter Tuning和LoRA。Adapter Tuning通过在预训练模型各层插入小型适配器模块(仅占全量微调0.5%-5%参数量),冻结主干参数仅训练适配器,实现任务适配。其模块化设计支持多任务共享模型,且不影响推理效率。LoRA则采用低秩矩阵分解技术,为原始权重矩阵添加可训练的低秩补丁(如秩r=4时参数量降至1.2%),通过B·A乘积形式更新参数,保持原始模型结构。两种方法均显著降低计算成本,适用于Transformer架构,并支持训练后参数合并,在保持

2026-05-18 00:12:47 382

原创 大模型入门-大模型蒸馏与微调1

摘要:Prompt Tuning是一种通过修改输入提示来引导大模型输出的高效微调方法,无需调整模型参数,仅需微调少量提示嵌入(约20K参数)即可适配不同任务。相比传统全量微调(需保存多个11B参数模型),它支持混合任务批处理,显著降低部署成本。类似地,Prefix Tuning通过添加可学习前缀(贯穿模型各层)实现更深层次的适配,在复杂任务中表现更优。这两种方法以极小参数调整激发大模型潜力,为多任务高效部署提供了创新范式。

2026-05-18 00:12:19 534

原创 【python因果库实战36】NHEFS 数据集2

本文介绍了使用逆概率加权(IPW)因果模型分析戒烟对体重变化的影响。通过逻辑回归估计倾向得分,构建平衡的合成人群,结果显示戒烟导致平均体重增加3.52公斤。未调整混杂因素时,效应被低估1公斤。Love图显示IPW有效平衡了协变量分布(平衡后标准化均值差显著降低),验证了模型的有效性。研究表明控制混杂因素对准确估计因果效应至关重要。

2026-05-17 00:59:12 363

原创 【python因果库实战35】NHEFS 数据集1

实际上,这种关联被支持吸烟的人用来掩盖戒烟者所受益的正面效果,因为更高的体重指数(BMI)可能导致不良后果。例如,参与者的年龄可以影响结果(体重),因为人们通常随着年龄的增长而增加体重(这有几个生理原因,如新陈代谢的变化)。受教育程度较高的人可能更容易戒烟(因为他们可能更多地接触到这场辩论并理解其中的风险),但他们也可能更加意识到健康饮食的好处,从而减少了随着时间推移而增加的体重。其次,为了确保我们的分析准确无误,我们必须识别出那些作为混杂因素的变量——也就是说,那些同时影响结果和治疗分配的变量。

2026-05-17 00:59:05 468

原创 【python因果库实战34】使用自定义后端进行匹配

本文展示了在因果分析中使用自定义后端进行样本匹配的方法。主要内容包括: 使用Faiss后端替代scikit-learn的NearestNeighbors,在Lalonde数据集上实现了5倍以上的速度提升(从约2分钟缩短至20秒)。 介绍了如何通过knn_backend参数指定自定义后端,支持直接传入类名或实例化对象两种方式。 提出了倾向得分对数比距离函数,通过log(x/(1-x))转换解决原始差值可能误导的问题,并展示了0.01-0.05与0.51-0.55两组值在原始距离和对数距离上的显著差异。 提供了

2026-05-15 00:22:59 426

原创 大模型入门-大模型评估方法

本文全面梳理了大语言模型(LLM)的主流评估方法。基础评估包括文本相似度指标(BLEU、ROUGE、编辑距离)和语言模型内在性能指标(困惑度)。针对长文本处理能力,介绍了"大海捞针"测试方法。此外,重点分析了综合评测基准体系,涵盖中文/通用模型评测(SuperCLUE、C-Eval)、国际权威榜单(Open LLM Leaderboard、Chatbot Arena)以及专项能力评测(MMLU、GLUE、AGI Eval等)。这些方法从不同维度评估模型性能,为LLM的研发和应用提供了系统化的评估框架。

2026-05-15 00:20:42 594

原创 大模型入门-应用篇4-Deep Research

摘要: Deep Research(深度研究)是AI领域的新范式,通过结合检索探索、结构化分析与报告生成,将零散信息转化为连贯的长篇分析报告。其核心架构分为规划、执行和合成三步骤,利用不同模型优化算力分配。开源框架如ByteDance的DeerFlow(多智能体协同)、LangChainAI的OpenDeep_Research(规划-搜索-反思-撰写)和SkyworkAI的Deep_ResearchAgent(双层架构)展现了多样化实现方案。这一演进标志着AI从信息检索迈向结构化知识生产,为开发者构建高效研

2026-05-14 00:50:46 862

原创 大模型入门-应用篇5-亿级向量的快速检索

在现代的推荐系统或 RAG(检索增强生成)业务中,我们不可避免地需要用到检索。最简单直接的方法是将用户的 Query 向量与数据库中的每一个向量进行遍历对比,这被称为“暴力计算”。这种方法精度最高,但效率极低,且面临着非常严峻的。让我们算一笔账:假设一个向量用 1024 维的float32(4字节)表示,那么单个向量的内存占用就是4Byte×1024。1000w×4Byte×102438GB暴力计算通常只适用于对精度要求极高的场景(例如公安系统的人脸搜索)。

2026-05-14 00:50:28 506

原创 大模型入门-应用篇3-Agent智能体

文章摘要: AI Agent(智能体)是大模型时代的关键技术,其本质是通过大模型代理人类行为,结合规划、记忆和工具使用来完成复杂任务。OpenAI将其定义为"LLM+规划+记忆+工具",复旦大学则提出"大脑-感知-行动"三模块框架。Agent常见工作模式包括反思模式、工具使用模式、ReAct推理行动模式、规划模式和多智能体协同模式。核心功能Function Call允许AI调用预设函数处理现实任务,典型流程为:定义工具函数→描述工具元信息→模型决策调用→执行并生成结果

2026-05-13 22:07:28 575

原创 CodeTop Top 300 热门题目23-回文子串-24-最长重复子串

摘要: 力扣647题要求统计字符串中的回文子串数量。回文子串指正反读相同的连续字符序列。解题方法包括: 中心扩展法:遍历每个可能的中心点(字符或间隙),向两边扩展统计回文数,时间复杂度O(n²)。 动态规划:定义dp[i][j]表示子串s[i:j+1]是否为回文,通过状态转移方程计算,同样为O(n²)复杂度。 示例: "abc" 有3个回文子串("a","b","c")。 "aaa" 有6个("a&

2026-05-13 00:17:57 414

原创 大模型入门-应用篇2-RAG (检索增强生成):从原理到 Python 实战

RAG技术解析:检索增强生成原理与Python实现 摘要:本文深入探讨检索增强生成(RAG)技术,通过结合检索系统与大语言模型解决LLM的知识局限性和幻觉问题。文章首先分析RAG的核心价值:扩展模型知识边界、保障数据隐私、提升回答准确性。随后详细拆解RAG标准流程:文档分块、向量化、向量数据库检索及Prompt组装。通过Python代码示例演示了PDF问答系统的完整实现,包括BM25+Embedding双路召回和融合排序策略。最后指出RAG落地的关键挑战在于知识库构建和检索优化,建议采用专业工具提升工业级应

2026-05-12 00:03:32 699

原创 大模型入门-应用篇1-prompt技术

摘要 本文深入探讨了提升大语言模型交互效果的三大核心技术:思维链(CoT)通过分步推理提高复杂问题解决能力;上下文学习(ICL)利用示例样本增强模型任务理解;以及三种高效提示词编写技巧(CO-STAR框架、分隔符使用和系统提示)。这些方法共同构成了提示工程的核心体系,能显著提升模型输出的准确性、逻辑性和实用性。文章通过具体案例展示了每种技术的应用场景和实施要点,为开发者提供了优化AI交互体验的实用指南。

2026-05-12 00:02:44 673

原创 【python因果库实战33】匹配模型2

本文探讨了匹配方法中卡尺(caliper)对样本匹配效果的影响。通过实验比较了有放回和无放回匹配下不同卡尺阈值对匹配样本比例和平均处理效应(ATE)的影响。结果显示,随着卡尺增大,匹配样本比例提高,但ATE估计趋于稳定。文章还介绍了匹配结果的DataFrame表示方法、权重计算过程,并将匹配方法与逆概率加权(IPW)在协变量平衡方面进行比较。通过可视化展示了不同方法的协变量平衡效果,匹配方法在平衡协变量分布方面表现良好,特别是当结合双向匹配时效果更佳。这些结果为因果推断中选择合适的匹配策略提供了参考。

2026-05-11 00:14:24 324

原创 【python因果库实战32】匹配模型1

本文探讨了使用匹配模型评估吸烟戒断对体重减轻的因果效应。研究采用欧几里得和马哈拉诺比斯距离匹配方法,结果显示两种度量在总体水平上产生相似效果(ATE分别为3.85和3.22)。通过倾向得分匹配,使用逻辑回归模型计算的平均处理效果为2.96-4.68。实验还分析了邻居数量对结果的影响(1-9个邻居时ATE在2.96-3.24之间波动),并比较了有放回和无放回匹配的差异(ATE分别为2.96和3.43)。研究采用数据二值化处理分类变量,避免引入偏差,为因果推断提供了实用方法。

2026-05-11 00:14:09 282

原创 CodeTop Top 300 热门题目21-重复的子字符串-22-删除字符串中的所有相邻重复项

摘要: 力扣459题要求判断字符串是否可由其子串重复构成。提供四种解法:1)字符串拼接法(最优解),通过检查s是否在(s+s)[1:-1]中实现O(n)时间;2)暴力解法,枚举所有可能子串长度并验证,时间复杂度O(n²);3)KMP算法,利用next数组特性判断,时间复杂度O(n);4)详细KMP版本,解释next数组计算过程。测试用例验证了各方法的正确性,其中字符串拼接法最为简洁高效。

2026-05-10 02:01:50 386

Spark入门.docx

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2020-04-02

人手一份核武器 - Hacking Team 泄露(开源)资料导览手册 _ WooYun知识库.pdf

事先声明本人并不是全栈安全工程师,仅仅是移动安全小菜一枚,所以对泄漏资料的分析难免会有疏忽或着错误,望各位围观的大侠手下留情。 首先来看安全界两大元老对Hacking Team(以下简称HT)被黑这个事件的看法: @tombkeeper: Stuxnet 让公众知道:“原来真有这种事”,Snowden 让公众知道:“原来这种事这么多”,Hacking Team 让公众知道:“原来这种事都正经当买卖干了”

2020-03-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除