- 博客(41)
- 资源 (14)
- 问答 (4)
- 收藏
- 关注
原创 LLM Agent:PaSa
PaSa 系统由两个 LLM 智能体组成:Crawler 和 Selector。Crawler 读取用户的查询内容,生成多个搜索查询,并检索相关的论文。检索到的论文会被添加到一个论文队列中。Crawler 进一步处理论文队列中的每一篇论文,以识别值得进一步探索的关键参考文献,并将任何新的相关论文添加到论文列表中。Selector 对论文列表中的每一篇论文进行全面审查,以评估其是否满足用户的查询要求。
2025-02-22 17:59:04
791
原创 LLM:Agent
智能体的角色特征通常涵盖年龄、性别和职业等基本信息,以及反映智能体个性的心理信息,还有详述智能体之间关系的社会信息。当面对这些任务时,上述无反馈的规划模块可能效果不佳,原因如下:首先,直接从一开始就生成一个完美无缺的规划极其困难,因为这需要考虑各种复杂的先决条件。智能体的角色特征基于 LLM 自动生成。人类的记忆通常遵循这样一个过程:从记录感知输入的感觉记忆,到短暂保存信息的短期记忆,再到长期巩固信息的长期记忆。然而, LLM 有限的上下文窗口限制了将全面的记忆信息纳入提示词中,这可能会降低智能体的性能。
2025-02-22 17:51:01
1000
原创 LLM:RAG
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索(IR)和 LLM 的技术。它的核心思想是在 LLM 生成回答之前,通过检索相关文档来增强生成内容的上下文信息,从而帮助 LLM 更好地理解用户的查询并基于外部知识库生成更为准确和详细的回答。
2025-02-18 18:56:40
653
原创 LLM:GPT 系列
GPT(Generative Pre-trained Transformer)是生成式预训练语言模型,基于 Transformer 架构,专注于通过自回归的方式生成自然语言文本,即给定一个输入序列xx1x2...xt,模型学习预测下一个单词xt1的条件概率Pxt1∣x1...xt。
2025-02-13 15:07:15
1134
原创 LLM:Qwen 系列
后训练数据(post-training data)的构建旨在增强模型在广泛领域的能力,包括编码、数学、逻辑推理、指令遵循和多语言理解,以及确保模型的生成结果符合人类价值观,使其有用、诚实和无害。Qwen 1 发布于 2023 年 8 月,Qwen 是一个全面的大型语言模型系列,涵盖了具有不同参数数量的不同模型,包括 Qwen 基础预训练语言模型和 Qwen-Chat,后者是通过人类对齐技术微调的聊天模型。高质量的多任务指令数据被整合到 Qwen2 的预训练过程中,以增强模型的上下文学习能力和指令跟随能力。
2025-02-10 08:08:10
1125
原创 LLM:DeepSeek 系列(三)
DeepSeek-V3 发布于 2024 年 12 月,采用了 DeepSeek-V2 中的多头潜在注意力(MLA)和 DeepSeekMoE 架构,此外,DeepSeek-V3 开创了一种无辅助损失的负载均衡策略,并设定了多词元预测训练目标以获得更强的性能。DeepSeek-V3 总参数量达 6710 亿个,每个词元激活 370 亿个参数,DeepSeek-V3 在 14.8 万亿个多样化且高质量标记上对 DeepSeek-V3 进行了预训练,随后通过监督微调和强化学习阶段来充分发挥其能力。
2025-02-08 22:21:07
1065
原创 LLM:DeepSeek 系列(二)
DeepSeek-V2 发布于 2024 年 5 月,为多领域专家(MoE)语言模型,包含总共 2360 亿个参数,其中每个词元激活 210 亿个参数,并支持 12.8 万个词元的上下文长度。DeepSeek-V2 采用包括多头潜在注意力(Multi-Head Latent Attention,MLA)和 DeepSeekMoE 在内的创新架构。MLA 通过将键值(KV)缓存显著压缩为一个潜在向量,保证了高效推理;而 DeepSeekMoE 则通过稀疏计算,能以较低成本训练出强大的模型。与 Deep
2025-02-08 22:19:53
1126
原创 LLM:DeepSeek 系列(一)
原文链接DeepSeek LLM 发布于 2023 年 11 月,收集了 2 万亿个词元用于预训练。在模型层面沿用了 LLaMA 的架构,将余弦退火学习率调度器替换为多步学习率调度器,在保持性能的同时便于持续训练。DeepSeek LLM 从多种来源收集了超过 100 万个实例,用于监督微调(SFT)。此外,利用直接偏好优化(DPO)来提升模型的对话性能。数据构建的主要目标是全面提升数据集的丰富性和多样性,将方法组织为三个基本阶段:去重、过滤和重新混合。去重和重新混合阶段通过采样独特实例确保数据的多样表现形
2025-02-08 22:16:22
1573
原创 搜索排序多目标预估和多目标融合
搜索业务往往需要同时满足多个不同的优化目标,例如点击率、转化率、用户停留时长等单一指标难以全面衡量搜索效果。这些目标之间既存在关联性,又可能存在冲突,单独优化某一个目标可能导致其他目标的效果下降。因此,多目标预估的目标是全面建模不同目标的特征和关系,实现更精准的目标预估,从而为后续的多目标融合提供高质量的输入。此外,多目标预估还能避免单一目标带来的局限性,提高排序模型在不同业务场景下的鲁棒性和泛化性,确保搜索结果能够在多维度上平衡用户体验与商业价值,最终实现搜索系统整体效果的最大化。
2024-12-27 17:34:35
987
原创 搜索系统常见指标和评估方式
搜索系统的优化离不开一套清晰、全面的指标体系,其中业务指标决定战略方向,中间指标反映执行效果。通过业务核心指标、中间过程指标和人工评估指标的结合,来量化用户满意度、系统性能和业务目标的达成情况,并以此建立从业务指标 → 中间指标 → 策略调整 → 效果反馈的完整数据闭环,实现全方位评估搜索效果,设定正确的系统优化方向。
2024-12-25 15:53:12
1762
原创 搜索算法概要
本文简要介绍了搜索算法流程中的关键节点和技术概要,展现搜索整体结构。在如今有关搜索领域的开源技术文章中,其算法策略百花齐放,尤其在细分方向上各有千秋。究其原因,一个角度的思考,搜索算法高度依赖产品定位、生态环境、平台支持、历史背景,作为一个复杂系统,其出发点、选择路径和目标的不同,最后导致该领域在细节上有一定差异化和多样性。不过,即使如此,在众多的搜索策略中,仍可以抽象出一些统一的方法论,且这种基础的哲学思想具有较高的指导意义,并在搜索大方向和细分领域中处处可见,影响深远。
2024-12-22 09:22:22
667
原创 搜索排序概要
特别的,对于搜索系统而言,Query-Doc 的相关性是决定用户体验的关键,并在粗排、精排中建模。本章节将相关性模块单独用一个篇幅介绍,粗排、精排、重排、混排分别用四个篇幅介绍。排序系统的整体定位和要求主要是基于搜索系统的核心目标,在提升用户体验、确保业务目标、以及系统可扩展性和计算效率的基础上,进行精细的排序优化。是搜索链路中的最后一个阶段,排序系统普遍采用级联架构,以此平衡效率和效果,并为业务需求提供灵活的调整空间。
2024-12-22 09:20:18
955
原创 搜索排序:重排
重排 是精排后的一个阶段,主要负责在最终展示结果前对精排后的排序列表进行进一步优化和调整(微调)。重排核心目标是保证一定相关性的前提下,提高结果的多样性,从而提升用户体验,满足用户在不同方面的需求,避免搜索结果过于单一、相似和同质化,为用户提供更丰富、全面的信息。设有一组候选文档 D={d1,d2,…,dm}D = \{d_1, d_2, \dots, d_m\}D={d1,d2,…,dm},需要从中选择一组结果 S⊆DS \subseteq DS⊆D,其中每个结果 did_idi 都有一个与查询
2024-12-22 08:08:55
700
原创 搜索排序:精排
精排 的核心目标是从粗排阶段筛选出的候选集内(通常是几百个到几千个候选文档),依据更加细致的相关性、用户行为、时效性等因素,对文档进行细粒度的排序,以确保最相关的文档排在前面,最大化用户满意度和点击转化率。精排模型在设计上应该使用更多的特征、更复杂的模型,并且在排序上更加注重细节和上下文的匹配。精排策略的设计上应该重点关注:特征设计对于模型的效果至关重要。根据特征来源、结构和时效性的不同,特征可以从多个维度进行划分并设计。从特征来源上看,可以分为Query特征、User特征、Doc特征、Author特征、交
2024-12-22 08:07:20
1044
原创 搜索排序:粗排
粗排在搜索链路中的定位介于召回与精排之间,既要承接召回的多样性,又要为精排提供足够的排序精度支撑。在设计粗排策略时,需要明确其与精排的差异化目标,从子集优质性、协作效率、覆盖性等方面入手,通过特征优化、多目标建模等手段,在效率与效果之间找到平衡点,从而最大化搜索系统的整体表现。
2024-12-21 17:21:48
852
原创 搜索排序:相关性
搜索相关性衡量搜索引擎返回的结果与用户查询意图的匹配程度,是评判搜索系统质量的一个关键因素。相关性通常和搜索效率指标冲突(如点击率、转化率等),如一些为了吸引用户点击但相关性不强的文档会对用户产生误导诱发点击,当相关性模块将类似文档过滤就有可能带来搜索点击率的下降。所以相关性必须有精确标准的一套相关性分档体系,帮助搜索系统在各种维度上优化排序结果。即,相关性策略的目标需要平衡相关性和搜索效率,清楚自己的功能定位,约束搜索排序以避免过度追求点击率而忽视了用户满意度,从长远上提高搜索系统的整体质量和用户体验。
2024-12-21 17:10:34
883
原创 搜索召回概要
主要围绕提高搜索系统的用户体验和业务价值,作为一个承上启下的环节,召回整体的目标要和搜索的最终目标对齐,即上下游协同发展。本章将具体介绍文本召回中的倒排召回、协同过滤召回和向量召回的实现方式,以及如何评估和优化这些召回策略。并在最后介绍如何在多召回通道下聚合多路召回结果。是整个检索流程的核心组成部分之一,其主要任务是从大规模文档集合中初步筛选出一批可能与用户查询相关的文档。
2024-12-21 17:01:07
409
原创 搜索召回:召回聚合
在召回模块中,各召回通道通常会通过不同的算法、模型或策略获取候选文档。由于这些召回通道目标、算法和策略的差异,它们生成的候选项通常具有不同的质量和覆盖面。召回聚合的任务是将这些候选项通过一定的方式进行加权、排序和融合,动态控制各个通道的召回量配额,确保最终的候选集合既具有足够的多样性,又能保持较高的相关性。
2024-12-21 16:59:15
773
原创 搜索召回:向量召回
召回常用的损失函数是多分类的,相比于侧重局部比较、优化相对关系的Hinge Loss(如:Pairlist),交叉熵损失在训练和推理阶段可保持一致性,并使得模型具备全局比较能力。向量召回是一种基于向量空间模型进行信息检索的方法,核心思想是将查询Query和文档Doc转换为向量,通过计算这些向量之间的相似度来进行检索。向量召回通常采用双塔模型,为了实现特征交叉,一般采用 DCN、Attention等网络架构。
2024-12-21 16:57:26
1723
1
原创 搜索召回:协同过滤召回
协同过滤算法在搜索召回中的应用,能够有效利用用户行为数据建模文档之间的关系。其中最基础的应用是采用I2I的召回框架,而在引入向量表征之后,可以升级为向量检索召回相似文档。即文档之间的相似性不再依赖共现数据,而是通过向量间的距离计算,实现了从简单线性关系到复杂非线性关系的提升。在实际业务中,可以根据业务需求、资源条件和模型能力选择适合的算法策略。
2024-12-21 16:46:58
586
原创 搜索召回:倒排召回
倒排检索召回具有极高的检索效率,适合处理大规模文本语料。但是倒排召回仅基于词项匹配,无法捕捉深层次语义关联,另外长查询的分词可能导致稀疏性问题,降低召回效果。更多内容请点击:搜索系统算法解析。
2024-12-21 16:44:04
836
原创 搜索 Query 解析
本章节将详细介绍 QP 中的重点领域:Query 切词、词权重、Query 纠错、Query 改写、类目识别、意图识别(时效性、地域性、用户名意图)等,这几个方向会采用较多的 NLP 知识,是搜索整个流程中和 NLP 技术关联最紧密的领域。是搜索链路中的关键环节,用于理解用户的查询并为后续处理(如检索和排序)提供清晰的结构化输入。它的核心任务是将用户的自然语言查询转化为系统能够理解的语义表示,并提取相关特征,为下游模块提供支持。Query解析是搜索系统理解用户需求的。
2024-12-21 16:39:52
345
原创 QP:意图识别
意图识别是用户检索体验中的核心环节,通过分析用户的查询内容和上下文,精准判断用户的真实需求,为后续的结果召回、排序和推荐提供有力支持。围绕不同场景,意图识别有多种维度和类型,其复杂性与丰富性决定了平台对用户需求的满足程度和交互质量。意图识别是检索技术与用户体验的结合点,其复杂性与灵活性决定了平台在多样化需求中的竞争力。无论是时效性、本地化还是用户名意图,理解用户真实需求并精准满足,有助于提升用户对平台的信任感和依赖度,增强用户粘性。总之,理解并满足用户需求始终是产品优化和技术创新的核心方向。
2024-12-21 16:37:19
1022
原创 QP:Query类目
类目体系在搜索系统中起到了组织和分类内容、提高搜索效率和准确性、优化用户体验、支持数据分析和管理的重要作用。通过合理设计和维护类目体系,可以显著提升搜索系统的性能和用户满意度。
2024-12-21 16:33:28
813
原创 QP:Query纠错
Query纠错面对拼写多样性、复杂性性和实时性等挑战,涉及的错误类型种类繁多,不同类型的错误往往需要采取不同的纠错策略和技术。另一方面,纠错的目标比较明确,高质量的模型训练数据集很大程度上决定了纠错效果的上限。随着技术的发展,基于生成模型的纠错算法已成为主流,但也面临着算力成本和实时性等挑战。在实际应用中,需要根据具体场景和需求选择合适的技术方案。
2024-12-21 16:29:59
689
原创 QP:Query改写
综上,Query改写链路可以看做为一个小型搜索系统,所以搜索系统中的方法或多或少可以作为Query改写实现中的方案参考。Query改写的核心目标是通过增强查询的准确性、表达的丰富性和意图的清晰度,让系统在更大范围内捕捉和满足用户的搜索意图,从而提升整体的用户体验和检索效果。所以,在设计改写方案时,需要明确改写目标和应用场景。在评估和迭代优化中通过A/B测试和用户反馈收集以优化改写规则和模型,确保改写系统不断学习和改善。
2024-12-21 16:25:01
1056
原创 QP:Term改写
综上,Term改写可以抽象为以下流程,并可分为离线数据挖掘和在线模型预测两个部分,一个好的改写系统可以有效降低长尾低频Query的零少结果率和Query换词率等指标。
2024-12-21 16:20:07
858
原创 QP:词权重
综上,本章介绍了词权重在搜索系统里的应用,以及词权重分档定义和标注准则,另外在算法实现上介绍了常用的文本特征和统计特征,以及相关模型设计。
2024-12-21 16:15:50
1003
原创 QP:Query切词
综上,本章介绍了业内搜索领域分词的常见技术方案,一个好的分词系统需要有一个结合下游应用场景的好的分词标注规范,在这个基础上才能明确分词的优化方向。此外,词粒度与召回能力紧密相关,决定了召回结果的召回量和相关性,如何在其中找到平衡点是词粒度设计的重点。互联网平台不断在汲取、创造新知识,表达方式也在不断发生变化,新词发现流程则是跟紧信息爆炸的时代的重要依靠,分词系统需要不断的维护才能保证技术指标维持在较高水准。
2024-12-21 16:07:34
672
原创 图表征学习与图预测
超大规模数据集类的创建在前面的学习中我们只接触了数据可全部储存于内存的数据集,这些数据集对应的数据集类在创建对象时就将所有数据都加载到内存。然而在一些应用场景中,数据集规模超级大,我们很难有足够大的内存完全存下所有数据。因此需要一个按需加载样本到内存的数据集类。在此上半节内容中,我们将学习为一个包含上千万个图样本的数据集构建一个数据集类。Dataset基类简介在PyG中,我们通过继承torch_geometric.data.Dataset基类来自定义一个按需加载样本到内存的数据集类。此基类与Torch
2021-07-08 22:55:01
474
2
原创 基于图神经网络的图表征学习的一般过程
基于图神经网络的图表征学习方法引言在此篇文章中我们将学习基于图神经网络的图表征学习方法,图表征学习要求根据节点属性、边和边的属性(如果有的话)生成一个向量作为图的表征,基于图表征我们可以做图的预测。基于图同构网络(Graph Isomorphism Network, GIN)的图表征网络是当前最经典的图表征学习网络,我们将以它为例,通过该网络的实现、项目实践和理论分析,三个层面来学习基于图神经网络的图表征学习方法。提出图同构网络的论文:How Powerful are Graph Neural Net
2021-07-04 11:35:19
363
原创 超大图上节点表征学习
超大图上的节点表征学习注:此节文章翻译并整理自提出Cluster-GCN的论文:Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Network引言图神经网络已经成功地应用于许多图节点或边的预测任务中,然而,在超大图上进行图神经网络的训练仍然具有挑战性。普通的基于SGD的图神经网络的训练方法,要么面临着随着图神经网络层数增加计算成本呈指数增长的问题,要么面临着保存整个图的信息和每一层每
2021-06-30 15:27:21
308
原创 节点表征学习与节点预测和边预测
数据完全存于内存的数据集类引言在上一节内容中,我们学习了基于图神经网络的节点表征学习方法,并用了现成的很小的数据集实现了节点分类任务。在此第6节的上半部分,我们将学习在PyG中如何自定义一个数据完全存于内存的数据集类。InMemoryDataset基类简介在PyG中,我们通过继承InMemoryDataset类来自定义一个数据可全部存储到内存的数据集类。class InMemoryDataset(root: Optional[str] = None, transform: Opti
2021-06-25 16:09:23
291
原创 节点表征学习与节点预测和边预测
基于图神经网络的节点表征学习引言在图节点预测或边预测任务中,需要先构造节点表征(representation),节点表征是图节点预测和边预测任务成功的关键。在此篇文章中,我们将学习如何基于图神经网络学习节点表征。在节点预测任务中,我们拥有一个图,图上有很多节点,部分节点的预测标签已知,部分节点的预测标签未知。我们的任务是根据节点的属性(可以是类别型、也可以是数值型)、边的信息、边的属性(如果有的话)、已知的节点预测标签,对未知标签的节点做预测。我们将以Cora数据集为例子进行说明,Cora是一个论文
2021-06-22 22:15:23
3710
原创 实现图神经网络的消息传递范式
消息传递图神经网络一、引言在开篇中我们介绍了,为节点生成节点表征(Node Representation)是图计算任务成功的关键,我们要利用神经网络来学习节点表征。消息传递范式是一种聚合邻接节点信息来更新中心节点信息的范式,它将卷积算子推广到了不规则数据领域,实现了图与神经网络的连接。消息传递范式因为简单、强大的特性,于是被人们广泛地使用。遵循消息传递范式的图神经网络被称为消息传递图神经网络。本节中,首先我们将学习图神经网络生成节点表征的范式–消息传递(Message Passing)范式。接着我
2021-06-18 16:55:05
970
原创 图论与程序中图的操作
图结构数据一、图的表示定义一(图):一个图被记为G={V,E}\mathcal{G}=\{\mathcal{V}, \mathcal{E}\}G={V,E},其中 V={v1,…,vN}\mathcal{V}=\left\{v_{1}, \ldots, v_{N}\right\}V={v1,…,vN}是数量为N=∣V∣N=|\mathcal{V}|N=∣V∣ 的结点的集合, E={e1,…,eM}\mathcal{E}=\left\{e_{1}, \ldots, e_{M}\right\}E={
2021-06-15 23:49:34
265
原创 异常检测介绍(5)
高维数据异常检测引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器
2021-01-24 21:01:55
486
3
原创 异常检测介绍(4)
基于相似度的方法概述“异常” 通常是一个主观的判断,什么样的数据被认为是“异常"的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常
2021-01-21 19:00:20
342
原创 异常检测介绍(3)
线性模型引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是线性回归,后者一个典型的例子是主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设
2021-01-17 21:53:48
397
原创 异常检测介绍(2)
基于统计学的方法概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象被一个以
2021-01-15 21:52:40
335
corpus.rar
2019-12-14
深入浅出强化学习原理入门.rar
2019-07-04
统计自然语言处理(宗成庆 第二版)
2018-03-01
Computer Systems: A Programmer's Perspective, 3rd Edition, PDF
2017-10-30
WinRAR破解版无须注册
2015-02-13
奇点临近(The Singularity Is Near: When Humans Transcend Biology)
2014-12-10
c++语言版魂斗罗 可改命
2013-12-08
Python爬取网页requests乱码
2017-06-18
正则表达式匹配指定字符之间的字符串
2017-05-15
如何用正则表达式匹配HTML标签内文字内容
2017-05-12
如何统计mysql里某个字段有多少行里含有某个字符?
2017-05-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人