- 博客(32)
- 资源 (1)
- 收藏
- 关注
原创 pycharmGateway远程开发0.5GB of free space is necessary to run the IDE
删除/home中的其他文件比如java_error_in_pycharm.hprof这个是pycharm的错误日志。原因 /home所在的磁盘不足。而不是下面的两个路径空间不足。把这两个路径中的缓存文件删除。把这个缓存重新设置到其他盘。
2024-12-26 13:31:12 426
原创 github 以及 huggingface下载模型和数据
Windows系统中,HuggingFace模型的默认保存位置是C:\Users\username\.cache\huggingface\transformers。您可以更改shell环境变量来指定不同的缓存目录。例如,您可以更改默认的shell环境变量TRANSFORMERS_CACHE或者HF_HOME + transformers/下载模型和数据使用snapshot_download的方法。会先把原文件格式下下来然后生成保存成.arrow文件。如果是本地没有缓存那么会下载到路径。
2024-11-12 16:43:30 961
原创 IEEExtreme 18
想了很久都没有想到哪错了 然后在able的数据87990 2 发现不能简单的直接找最右边的。需要将比如87990 最大的情况是 99870要把所有的9在的前两位和能够交换的9进行排序。所以在找前面两个78交换位置的时候需要枚举所有情况这里没有多想了 直接写了dfs。当时考试的时候想到的是先把所有的数排个序 然后从左往右看还有多少个需要交换。第二步的时候先交换 6和4再交换54对结果没影响而且也不会产生多余的次数。从最后的结果开始倒推 如果想要数更大那么首先是需要让前面的数更大。然后真正的答案过程应该是。
2024-10-31 13:43:27 332
原创 字节 青训营 X 豆包MarsCode 技术训练营 2024 入营考核
2024年10.23更新了java和python的提交后 发现有的题目名称和最开始的有些不一样了。
2024-10-16 23:16:52 2477
原创 train_llava记录
首先时build_model【自定义多模态大模型LLaVA——LLaVA系列】 https://www.bilibili.com/video/BV1GS411P74b/?作者用的4B的qwen1.5 但是这里发现3090是只能部署但是推理爆显存所以只能换成0.5B的。
2024-09-18 17:11:46 649
原创 transformer代码实现
但是前人其实肯定已经有很好的实现了 所以就打算先看看比较好的代码写法再学习一下。然后再知乎上找了之后发现了更详细的这个。不过说到自己要写的时候还是得这样。之前看了原理一直没有写过代码。
2024-08-27 14:05:19 208
原创 8月15日
上午开会 rag继续 异构大模型狂野飙车9之前的账号终于找回来了下午关于minicpm的代码minicpm-v这里有讲解的代码发现还是先推荐把llava的掌握好了之后再看minicpm图像的读取图像embedding 还需要在提取特征处理之后再使用图像是怎么embeding 以及 图像和文本怎么拼接比如 输入 这个image 怎么样 image 这里是指向图片的链接图像 [3, 高, 宽] 第一维是3通道画图工具 drawio自定义多模态llava图像用的clip。
2024-08-26 19:23:08 318
原创 8月7日-8日学习
首先是昨天看到的gemma 2 中训练2B模型用了知识蒸馏,找了一下技术报告 结果先找到了一代的半天没有看到知识蒸馏的部分 然后在二代里面找到了 只有很小的一部分就是用小模型学习大模型的概率预测分布然后这里的话又找到了华为发布的小模型论文首先是关于词表的大小的讨论 这里得出的结论是 在覆盖90%之下比较好的然后还有depth 这里的depth具体是指什么有多少个自注意力层?参数一是采用随机分布初始化二是从大模型中继承 但是关于模型的差异架构如何处理首先是找对结果影响最重要的层。
2024-08-11 17:55:01 637
原创 llama3.1 论文
导言模型的卖点模型的架构 不是MOE 而是稠密的transformer上下文 128k窗口还有模型训练的两阶段三个关键点Scale 405BSFTRS 拒绝采样DPO指标表这里的小细节 可以调看哪个shot比较好, 哪个用Cot比较好MMLU-Pro新出的指标IFEval 指令评测Math评测上70B和405B 基本上差距不大有可能评测太老了不能体现出他们的区别。
2024-08-11 17:54:31 229
原创 同模型融合技术
对于语料库 C 中的每个文本,应用提供的 K 个源 LLM 并获得一组概率分布矩阵,表示为 {Pθj },j=1,K,其中 θj 表示 LLM 的参数。为了结合源LLM的集体知识,同时保留其独特的优势,必须评估不同LLM的质量并为其各自的分布矩阵分配不同的重要性级别。因此,来自不同LLM的同一文本的不同概率分布矩阵,可用于表示这些模型中嵌入的不同知识。认识到这一点,提出的 FUSELLM 方法通过概率建模来解决 LLM 融合问题,旨在通过合并源 LLM 的概率分布来创建统一的 LLM。
2024-07-30 16:52:03 186
原创 跨模态模型融合技术
数据预处理通过很多的bert类模型进行过滤处理。还有一个语音合成模型:CosyVoice。语音理解模型:SenseVoice。SFT RS(拒绝采样) DPO。星辰语音大模型-超多方言ASR。小模型是通过大模型蒸馏出来的。注意力机制不同的qkv对应情况。MOE与transformer。首先是先把语言模型训练好。合成数据 在SFT 阶段。9.11和9.9的比较。这里又分了小的 大的。
2024-07-30 16:51:19 169
原创 多模态学习
今天在B站上找到了李沐老师的多模态串讲视频,csdn上也有人已经做了相关笔记记录常见术语VE(视觉嵌入)、TE(文本嵌入)和 MI(模态交互)分别表示不同的网络组件损失图文匹配 ITM、掩膜语言模型 MLM 和文本图像块对齐 WPA。ITM 判断输入的文本与图像是否匹配,本质上是一个二分类问题。MLM 即 BERT 提出的”完形填空“,预测输入的文本中被挖去的单词。WPA 则是要对齐输入文本与图像块。
2024-07-19 16:18:57 383
原创 大模型(LLM)预训练之数据处理-文档提取-预训练格式转换
抛开其中的图片,其实比较难搞的就是其中对于段落中的表格正确识别。ragflow这个好像在demo网页中能够提取。这个Aspose是付费的 只能试用给出一部分。然后是langchain的自带的pdf提取。还有一个问题是官网文档给出的教程是C#的。而且访问Table时报错无法解决。尝试了一下还是有些难搞。同时给出了ocr方案。
2024-07-09 16:38:01 436
原创 2024.6.3工作记录
今天在查看资料的时候发现了某个人写的从零开始预训练模型最开始以为还需要很大的显存看了很多人用来很小的模型在发现2 * 4090还是可以的ollama。
2024-06-10 17:29:55 741
原创 2024年5月29日工作记录
今天的任务提取csv数据lora和full tuning微调qwen0.5B模型生成测试 由于模型具有不稳定性 多次生成测试。
2024-06-03 16:43:52 271
原创 2024年6月1、2日工作记录
首先是昨天晚上放着跑的全参数微调不知道什么原因停了运行评估的时候发现是服务器没存储空间了看了以下原来是full_tuning 每次都要保存模型全部参数占了很大的空间想了发现llama_factory中提供的评估只有cosine没有所以只好自己来一个checkpoint一个来run bash脚本然后想了想用kimi来帮忙写个循环依次跑点击链接查看和 Kimi 智能助手的对话 https://kimi.moonshot.cn/share/cpdtk6sudu66ie9ag350。
2024-06-03 14:39:15 981
原创 2024.5.28工作记录
今天主要的任务是找到确定模型微调效果的验证方式,一个1B左右的模型可以全参数微调,可以用来验证微调数据量多少合适的数据集。
2024-05-29 09:06:27 934
原创 导包bug记录
from paddleocr import PPStructure,draw_structure_result,save_structure_resImportError: cannot import name 'PPStructure' from partially initialized module 'paddleocr' (most likely due to a circular import) (/home/daichenrui2404/layout-parser/paddleocr.py)在
2024-04-28 10:45:19 487
原创 投资策略有哪些?如何选择适合自己的投资策略?
资产配置的细分最终取决于你的风险承受能力。一个保守的投资者可能倾向于将其投资组合的80%用于固定收入,20%用于股票。积极的投资者则相反,而平衡型的投资者将遵循50-50的分配方式。涉及到购买那些通常按稳定时间表支付回报的证券。债券是最知名的固定收益证券类型,但该类别还包括派息股票、交易所交易基金(ETF)、共同基金和房地产投资信托(REITs)用数字具体化收益 如想在未来10年内使我的投资贡献达到8%的平均年回报率,以便积累20万美元。
2024-03-14 17:03:27 283 1
原创 2024年工作记录
py 相对路径 一个.是后退一级 /是进一级。然后在导入绝对路径时 home/ 前面。不知道为啥../今天找路径的时候错了。然后在弹出的窗口上输入密码。命令 ssh用户名@ip。首先是ssh 远程登录。
2024-03-06 17:15:31 441 1
原创 java中interface与abstract
继承 实现 class 一个abstart,class 多个interface abstract abstarct interface interface interface 两个类型中关键字添加 abstract final static abstract √ √ √ interface × × √ ...
2021-07-07 20:40:38 80
原创 软件构造知识点总结
第一章根据往年考察考一个软件构造的三维度By phases: build- and run-time views 按阶段划分:构造时/运行时视图By dynamics: moment and period views 按动态性划分:时刻/阶段视图By levels: code and component views 按构造对象的层次划分:代码/构件视图第三章Software Configuration Management (SCM) and Version Control S.
2021-07-07 12:47:07 136
原创 HIT软件构造实验三 重点与反思
这次实验主要是基于时间段类及其变种实现排班,进程管理和课表管理系统DutyRoster:这是一个值班应用,可以手动或自动为员工排班ProcessSchedule:操作系统进程调度管理应用,可随机执行进程,也可采用最优执行.CourseSchedule;课表管理系统,先储存学期要上课程,然后提供选课操作,同时还能查看未排完课程以及空闲重复时间占比 应用 差异 共性 DutyRoster 时间段不可重叠,
2021-07-06 23:42:32 179
原创 HIT软件构造实验二重点与反思
本次实验训练抽象数据类型(ADT)的设计、规约、测试,并使用面向对象编程(OOP)技术实现 ADT。针对PoeticWalks和SocialNetwork从问题描述中识别所需的 ADT;设计 ADT 规约(pre-condition、post-condition)并评估规约的质量;根据 ADT 的规约设计测试用例;由于为了适应更多的数据类型采用ADT 的泛型化;根据规约设计 ADT 的多种不同的实现;针对每种实现,设计其表示(representation)、表示不变...
2021-07-05 15:35:19 92
原创 HIT软件构造实验一重点与反思
这次分为3个模块分别是Magic SquaresTurtle GraphicsSocial Network一.Magic Squares要求1 编写函数使其能从文件中读入矩阵,并接受不规范数据时返回false并给出提示。然后判断其每行数之和以及对角线之和是否相等要求2 对generateMagicSquare进行扩展使其在读入奇数时产生该数大小的矩阵,在输入偶数负数时,函数返回false并给出输入错误提示总结:主要考察了java文件读入以及如何将输入转化为字符.
2021-07-02 16:27:06 138
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人