Tankoldbang-CSDN博客

原创同模型融合技术

对于语料库 C 中的每个文本，应用提供的 K 个源 LLM 并获得一组概率分布矩阵，表示为 {Pθj }，j=1，K，其中 θj 表示 LLM 的参数。为了结合源LLM的集体知识，同时保留其独特的优势，必须评估不同LLM的质量并为其各自的分布矩阵分配不同的重要性级别。因此，来自不同LLM的同一文本的不同概率分布矩阵，可用于表示这些模型中嵌入的不同知识。认识到这一点，提出的 FUSELLM 方法通过概率建模来解决 LLM 融合问题，旨在通过合并源 LLM 的概率分布来创建统一的 LLM。

2024-07-30 16:52:03 155

原创跨模态模型融合技术

数据预处理通过很多的bert类模型进行过滤处理。还有一个语音合成模型：CosyVoice。语音理解模型：SenseVoice。SFT RS(拒绝采样) DPO。星辰语音大模型-超多方言ASR。小模型是通过大模型蒸馏出来的。注意力机制不同的qkv对应情况。MOE与transformer。首先是先把语言模型训练好。合成数据在SFT 阶段。9.11和9.9的比较。这里又分了小的大的。

2024-07-30 16:51:19 130

原创模型训练与推理加速

模型加速框架总结。

2024-07-23 11:18:21 243

原创多模态学习

今天在B站上找到了李沐老师的多模态串讲视频，csdn上也有人已经做了相关笔记记录常见术语VE（视觉嵌入）、TE（文本嵌入）和 MI（模态交互）分别表示不同的网络组件损失图文匹配 ITM、掩膜语言模型 MLM 和文本图像块对齐 WPA。ITM 判断输入的文本与图像是否匹配，本质上是一个二分类问题。MLM 即 BERT 提出的”完形填空“，预测输入的文本中被挖去的单词。WPA 则是要对齐输入文本与图像块。

2024-07-19 16:18:57 348

原创大模型(LLM)预训练之数据处理-文档提取-预训练格式转换

抛开其中的图片，其实比较难搞的就是其中对于段落中的表格正确识别。ragflow这个好像在demo网页中能够提取。这个Aspose是付费的只能试用给出一部分。然后是langchain的自带的pdf提取。还有一个问题是官网文档给出的教程是C#的。而且访问Table时报错无法解决。尝试了一下还是有些难搞。同时给出了ocr方案。

2024-07-09 16:38:01 179

原创 2024年6月26、27工作记录

baby_llama2_chinese的数据清晰可以用多线程优化。ujson读取大文件比json快多了。

2024-06-26 17:29:24 145

原创 2024年6月12、13日工作记录

大模型预训练构造分词器和词表

2024-06-13 11:06:03 111

原创 2024.6.3工作记录

今天在查看资料的时候发现了某个人写的从零开始预训练模型最开始以为还需要很大的显存看了很多人用来很小的模型在发现2 * 4090还是可以的ollama。

2024-06-10 17:29:55 667

原创 2024年5月29日工作记录

今天的任务提取csv数据lora和full tuning微调qwen0.5B模型生成测试由于模型具有不稳定性多次生成测试。

2024-06-03 16:43:52 243

原创 2024年6月1、2日工作记录

首先是昨天晚上放着跑的全参数微调不知道什么原因停了运行评估的时候发现是服务器没存储空间了看了以下原来是full_tuning 每次都要保存模型全部参数占了很大的空间想了发现llama_factory中提供的评估只有cosine没有所以只好自己来一个checkpoint一个来run bash脚本然后想了想用kimi来帮忙写个循环依次跑点击链接查看和 Kimi 智能助手的对话 https://kimi.moonshot.cn/share/cpdtk6sudu66ie9ag350。

2024-06-03 14:39:15 860

原创 2024.5.28工作记录

今天主要的任务是找到确定模型微调效果的验证方式，一个1B左右的模型可以全参数微调，可以用来验证微调数据量多少合适的数据集。

2024-05-29 09:06:27 870

原创导包bug记录

from paddleocr import PPStructure,draw_structure_result,save_structure_resImportError: cannot import name 'PPStructure' from partially initialized module 'paddleocr' (most likely due to a circular import) (/home/daichenrui2404/layout-parser/paddleocr.py)在

2024-04-28 10:45:19 291

原创投资策略有哪些？如何选择适合自己的投资策略？

资产配置的细分最终取决于你的风险承受能力。一个保守的投资者可能倾向于将其投资组合的80%用于固定收入，20%用于股票。积极的投资者则相反，而平衡型的投资者将遵循50-50的分配方式。涉及到购买那些通常按稳定时间表支付回报的证券。债券是最知名的固定收益证券类型，但该类别还包括派息股票、交易所交易基金（ETF）、共同基金和房地产投资信托（REITs）用数字具体化收益如想在未来10年内使我的投资贡献达到8%的平均年回报率，以便积累20万美元。

2024-03-14 17:03:27 210 1

原创 Langchain

将LLM中的prompt通过函数调用进行标准化。主要介绍了常用的构建prompt的方式。

2024-03-14 16:59:54 693 1

原创 2024年工作记录

py 相对路径一个.是后退一级 /是进一级。然后在导入绝对路径时 home/ 前面。不知道为啥../今天找路径的时候错了。然后在弹出的窗口上输入密码。命令 ssh用户名@ip。首先是ssh 远程登录。

2024-03-06 17:15:31 412 1

原创 lol 无限火力

无限火力信息

2024-01-30 11:13:25 1936 1

原创 java中interface与abstract

继承实现 class 一个abstart，class 多个interface abstract abstarct interface interface interface 两个类型中关键字添加 abstract final static abstract √ √ √ interface × × √ ...

2021-07-07 20:40:38 60

原创软件构造知识点总结

第一章根据往年考察考一个软件构造的三维度By phases: build- and run-time views 按阶段划分：构造时/运行时视图By dynamics: moment and period views 按动态性划分：时刻/阶段视图By levels: code and component views 按构造对象的层次划分：代码/构件视图第三章Software Configuration Management (SCM) and Version Control S.

2021-07-07 12:47:07 102

原创 HIT软件构造实验三重点与反思

这次实验主要是基于时间段类及其变种实现排班，进程管理和课表管理系统DutyRoster:这是一个值班应用，可以手动或自动为员工排班ProcessSchedule:操作系统进程调度管理应用,可随机执行进程,也可采用最优执行.CourseSchedule;课表管理系统，先储存学期要上课程，然后提供选课操作，同时还能查看未排完课程以及空闲重复时间占比应用差异共性 DutyRoster 时间段不可重叠,

2021-07-06 23:42:32 137

原创 HIT软件构造实验二重点与反思

本次实验训练抽象数据类型（ADT）的设计、规约、测试，并使用面向对象编程（OOP）技术实现 ADT。针对PoeticWalks和SocialNetwork从问题描述中识别所需的 ADT；设计 ADT 规约（pre-condition、post-condition）并评估规约的质量；根据 ADT 的规约设计测试用例；由于为了适应更多的数据类型采用ADT 的泛型化；根据规约设计 ADT 的多种不同的实现；针对每种实现，设计其表示（representation）、表示不变...

2021-07-05 15:35:19 72

原创 HIT软件构造实验一重点与反思

这次分为3个模块分别是Magic SquaresTurtle GraphicsSocial Network一.Magic Squares要求1 编写函数使其能从文件中读入矩阵，并接受不规范数据时返回false并给出提示。然后判断其每行数之和以及对角线之和是否相等要求2 对generateMagicSquare进行扩展使其在读入奇数时产生该数大小的矩阵,在输入偶数负数时，函数返回false并给出输入错误提示总结:主要考察了java文件读入以及如何将输入转化为字符.

2021-07-02 16:27:06 112

Tankoldbang的博客