LLM 大模型文档语义分块、微调数据集生成

loong_XL

于 2024-08-03 13:22:32 发布

阅读量214

点赞数 6

分类专栏：深度学习大模型AI 文章标签：大模型 LLM 数据集语义文档 rag

本文链接：https://blog.csdn.net/weixin_42357472/article/details/140889267

版权

深度学习同时被 2 个专栏收录

295 篇文章 154 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大模型AI

51 篇文章 2 订阅

订阅专栏

1、LLM 大模型文档语义分块

参考：
https://blog.csdn.net/m0_59596990/article/details/140280541

根据上下句的语义相关性，相关就组合成一个分块，不相关就当场两个快
在这里插入图片描述
语义模型用的bert-base-chinese：
https://huggingface.co/google-bert/bert-base-chinese

代码：
对水浒传的分块

import torch
from transformers import BertTokenizer, BertModel
import re
import os
from scipy.spatial.distance import cosine


def get_sentence_embedding

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

loong_XL

关注关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

LLM大模型测试训练语料数据

03-15

在预训练阶段，LLM 从大量未标记的文本数据中学习广泛的知识，然后将其存储在其模型参数中。它使 LLM 具有一定程度的语言理解和生成能力。预训练语料库可以包含各种类型的文本数据，如网页、学术资料、书籍，同时也...

如何从任何文档生成指令数据集以进行LLM微调

liferecords的博客

03-14

3098

这种选择背后的动机源于一种观察，即像 ChatGPT 这样的工具往往难以掌握特定领域的知识，尤其是特定行业和卢森堡等较小国家的监管要求。通过说明，人们可以引导讨论，确保模型的回复是相关的、有用的，并且符合用户的需求。这种量身定制LLM将使我能够理解潜在的监管要求，回应有关这些要求的询问，并最终将其效用扩展到更广泛的应用，例如风险管理、影响评估和持续监控。这也是一个关键的步骤，可以显着影响微调模型的性能。这是我用我的文档创建的数据集，当然，在微调过程之前，它需要一些进一步的清理和改进，以确保其质量和性能。

参与评论您还未登录，请先登录后发表或查看评论

基于llm_finetune技术的南昌大模型微调实践源码

热门推荐

weixin_42357472的博客

06-23

1万+

1、标记数据用labelme，建议用ubuntu版本去做，因为window可能因为这个需要环境改变影响其他，自己犯过这个问题 https://github.com/wkentaro/labelme 2、labelme转化成coco数据集用于分割任务 labelme2coco.py进行转化 # -*- coding:utf-8 -*- import argparse import json im...

BERT 获取最后一层或每一层网络的向量输出

weixin_42357472的博客

10-21

1万+

参考：https://zhuanlan.zhihu.com/p/422533717 https://blog.csdn.net/sunyueqinghit/article/details/105157609 transformer输出的结果 last_hidden_state：shape是(batch_size, sequence_length, hidden_size)，hidden_size=768,它是模型最后一层输出的隐藏状态 pooler_output：shape是(batch_size, hid

神经网络 Embedding层理解； Embedding层中使用预训练词向量

weixin_42357472的博客

10-21

9408

Embedding：高维稀疏特征向量到低维稠密特征向量的转换；嵌入层将正整数（下标）转换为具有固定大小的向量 Embedding 字面理解是 “嵌入”，实质是一种映射，从语义空间到向量空间的映射，同时尽可能在向量空间保持原样本在语义空间的关系，如语义接近的两个词汇在向量空间中的位置也比较接近。应用：在深度学习推荐系统中，Embedding主要的三个应用方向： 1、在深度学习网络中作为Embedding层，完成从高维稀疏特征向量到低维稠密特征向量的转换； 2、作为预训练的Embedding特征向量，与其

bert4keras、transformers 加载预训练bert模型、句向量cls，字向量提取；tokenizer使用

weixin_42357472的博客

12-08

9047

bert4keras 分词器 Tokenizer from bert4keras.models import build_transformer_model from bert4keras.tokenizers import Tokenizer import numpy as np config_path = '/Users/lonng/Desktop/v+/xl/chinese_L-12_H-768_A-12/bert_config.json' checkpoint_path = '/Users/lo

yolov8 人体姿态关键点检测使用案例

weixin_42357472的博客

06-16

7687

参考： https://github.com/ultralytics/ultralytics https://github.com/TommyZihao/Train_Custom_Dataset/tree/main/%E5%85%B3%E9%94%AE%E7%82%B9%E6%A3%80%E6%B5%8B 1、命令行运行 pip安装好后就可以yolo 命令运行执行 *** 运行效果，source=0是直接调用本地摄像头结果： 640x512 1 person, 114.0ms Speed: 8.0

yolo v5 onnxruntime与opencv cv2加载部署推理、实时摄像头检测

weixin_42357472的博客

04-13

7558

参考：https://github.com/hpc203/yolov5-lite-onnxruntime https://github.com/hpc203/yolov5-dnn-cpp-python 1、onnxruntime 加载推理yolo v5 onnx import cv2 import numpy as np import argparse import onnxruntime as ort import math class yolov5_lite(): def __init__(s

LLaMA-Factory可视化界面微调chatglm2；LoRA训练微调模型简单案例

weixin_42357472的博客

05-09

6431

lore模型训练参考：https://github.com/huggingface/peft。

bert 自己语料预训练pre-train、微调fine-tune；tensorflow/pytorch矩阵点乘、叉乘区别

weixin_42357472的博客

12-07

6044

矩阵点乘：对应位置直接相乘矩阵叉乘：行向量的每一个元素乘以列向量中所有元素

bert+lstm+crf ner实体识别

weixin_42357472的博客

08-14

5830

参考： https://github.com/BrikerMan/Kashgari https://eliyar.biz/nlp_chinese_text_classification_in_15mins/ bert预训练中文模型下载：百度云下载地址：https://pan.baidu.com/s/16JJp6NMCjmIT8PqP9OfN4g 包含这些内容的整体下载下来 !pip install kashgari !pip install -i https://pypi.tuna.tsinghua.ed

Pytorch迁移学习之猫狗分类；create_feature_extractor提取模型向量

weixin_42357472的博客

03-06

5581

1.AttributeError: ‘VGG’ object has no attribute 'fc’错误解决：fc换成classifier[6]，并且带【索引】，索引值可以直接打印模型看到结构层 model= models.vgg16(pretrained=True) for param in model.parameters(): #params have requires_grad=Tr...

llama.cpp LLM模型 windows cpu安装部署；运行LLaMA2模型测试

weixin_42357472的博客

06-20

5526

参考： https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/1301135991、下载： 2、编译 3、测试运行

sentence_transformers加载使用预训练bert模型；向量KMeans聚类

weixin_42357472的博客

12-31

5001

参考：https://www.sbert.net/docs/quickstart.html sentence_transformers 基于transformers库 from sentence_transformers import SentenceTransformer,util ## cache_folder指定保存路径 model1 = SentenceTransformer('peterchou/simbert-chinese-base',cache_folder =r"D:\simcse")

llm微调数据集制作

10-17

好的，关于llm微调数据集制作，我可以给你一些基本的步骤和建议。首先，llm微调是指在预训练模型的基础上，使用特定的数据集进行微调，以适应特定的任务。因此，制作llm微调数据集的第一步是确定你要解决的任务，并收集相关的数据。接下来，你需要对数据进行清洗和预处理。这包括去除重复数据、标准化数据格式、分割数据集等操作。同时，你还需要对数据进行标注，以便模型能够理解和学习。在数据准备好之后，你可以使用预训练模型进行微调。这个过程需要选择合适的超参数，并进行多次实验来找到最优的模型。最后，你需要对微调后的模型进行评估和优化。这包括计算模型的准确率、召回率、F1值等指标，并根据结果进行调整和改进。