总结:大模型应用技术原理

​​​​原文地址大模型应用技术原理

  • 文档解析器
    • 目标:将非结构化的文档(pdf,word,ppt等)转换为结构化数据
    • 非结构文档分类
      • 高度结构化的文档:基于标记语言的文本,md,html,latex
      • 半结构化的文档:word等
      • 低结构化的文档:ppt,pdf等
    • 难点:OCR
      • 公式:Nougat
      • 表格:PaddleOCR,阿里追光,camelot,lineless_table_rec
      • 文字:Umi-OCR,Rapid-OCR,PaddleOCR
  • 文本分割器
    • 基于规则的分割
      • CharacterTextSplitter,RecursiveCharacterTextSplitter等
    • 基于模型/算法的分割
      • damo/nlp_bert_document-segmentation_chinese-base,NLTKTextSplitter,SpacyTextSplitter
    • 针对高度结构化的非结构文本的分割器
      • MarkdownTextSplitter,PythonCodeTextSplitter,HTMLHeaderTextSplitter,LatexTextSplitter等
    • 面向token的分割
      • SentenceTransformersTokenTextSplitter
  • Embedding模型:Instruction+对称 VS 非对称
    • 对称 query:question,text:text
      • sentence-T5
        • T5-encoder+mean pooling
        • 无标注对比学习+有标注对比学习的两阶段训练
    • 非对称:query:text
      • GTR
        • 与sentence-T5结构相同
        • 将fine tune的数据集从NLI换成检索相关的,并且利用百度的rocketqa来获得hard negative
        • 对比学习改成双向对比学习(每个batch里有两个对比学习损失,第一个损失是以query为中心去构建正负样本,第二个损失是以positive document为中心去构建正负样本)
      • stella-v2
      • piccolo
    • 混合
  • 向量数据库
    • 选型标准
      • 开源 VS 闭源 VS 源码可见
      • 客户端/SDK语言:python,rust,go...
      • 托管方式
        • self-hosted/on-premise
          • redis,pgvector,milvus
        • managed/cloud-native
          • zilliz,pinecone
        • embeded+cloud-native
          • chroma,lanceDB
        • self-hosted+cloud-native
          • vald,drant,weaviate,vspa,elasticsearch
      • 索引方法
        • 算法
          • Flat
          • Tree-based:KD-Tree,Trinary Projection Trees,Annoy
          • IVF-based:IVF,IVMF
          • Graph-based:NSW,NSG,HNSW,DiskANN
            • HNSW
              • 分层的可导航小世界(Hierarchical Navigable Small World,HNSW)是一种基于图的数据结构,它将节点划分成不同层级,贪婪地遍历来自上层的元素,直到达到局部最小值,然后切换到下一层,以上一层中的局部最小值作为新元素重新开始遍历,直到遍历完最低一层。它的基本思想是:跳表+NSW
              • 跳表

            • NSW
              • 核心思想:可导航小世界(Navigable Small World,NSW)将候选集合构建成可导航小世界图,利用基于贪婪搜索的kNN算法从图中查找与查询点距离最近的k个顶点。
              • 近似Delonay图:向图中逐个插入点,对于每个新插入点,使用近似KNN搜索(approximate KNN search)算法从图中找到与其最近f个点集合,该集合中所有点与插入点连接。通过上述方式构建的是近似Delonay图,与标准Delonay图相比,随着越来越多的点被插入到图中,初期构建的短距离边会慢慢变成长距离边,形成可导航的小世界,从而在查找时减少跳数加快查找速度。
              • 德劳内(Delaunay)三角剖分算法,这个算法可以达成如下要求:
                •  (1)图中每个点都有“友点”。
                • (2
  • 30
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值