- 博客(30)
- 问答 (1)
- 收藏
- 关注
原创 大语言模型(LLM)入门 - (22) Flash Attention
TiaoYu-1是一个面向初学者的开源大语言模型(LLM)学习项目,具有三大特色:1)所有代码都配有中文注释,便于理解;2)覆盖从预训练到推理的完整训练流程,包括SFT、RLHF、LoRA等关键技术;3)提供配套原理文档和详细学习路径。项目采用模块化设计,从基础概念到核心组件(如注意力机制、MOE网络)都有文档说明和代码实现,特别适合LLM新手系统化学习。此外还包含预训练数据处理、模型优化等实用内容,以及BERT、GPT等延伸知识。
2025-06-01 19:48:15
566
原创 大语言模型(LLM)入门 - (20) 人类反馈强化学习
TiaoYu-1是一个面向初学者的开源大语言模型(LLM)学习项目,具有以下特点:1)代码包含详细中文注释;2)覆盖完整训练流程,包括预训练、SFT微调、RLHF强化学习等;3)提供配套原理文档。该项目采用模块化学习路径,建议从基础概念文档入手,逐步深入模型架构、编码实现,最后完成各阶段训练任务。还包含FlashAttention、MOE网络等进阶内容,以及梯度消失、GPT/BERT对比等拓展知识,适合LLM开发者系统学习。
2025-06-01 19:48:05
678
原创 大语言模型(LLM)入门 - (18) 梯度消失与梯度爆炸
TiaoYu-1是一个面向初学者的开源大语言模型项目,特点是代码行均配有中文注释。该项目完整覆盖大模型训练全流程,包括预训练、监督微调、强化学习、LoRA微调、知识蒸馏等关键环节,并提供了配套原理文档。推荐学习路径从基础概念文档入手,逐步深入到模型构建、超参数设置及各模块实现(如位置编码、注意力机制等),最后实践训练流程。项目还包含可选扩展内容,如模型评价指标、梯度问题处理等进阶知识,为LLM学习者提供了系统的入门指导。
2025-06-01 19:47:53
844
原创 大语言模型(LLM)入门 - (17) 信息量、熵、交叉熵、KL散度等
TiaoYu-1是一个面向初学者的开源大语言模型学习项目,提供完整训练流程代码和详细文档。项目特点包括:1)所有代码都有中文注释;2)覆盖预训练、微调、强化学习等全流程;3)配套原理文档。推荐学习路径:先理解基础概念,再研究模型结构代码,最后实践训练流程。项目还包含FlashAttention、MOE网络等前沿技术说明,以及梯度消失、BERT等扩展知识,适合系统学习LLM开发。
2025-06-01 19:47:37
740
原创 大语言模型(LLM)入门 - (14) 优化器
《TiaoYu-1大语言模型学习指南》是一个面向初学者的开源项目,涵盖大语言模型全流程训练技术。项目特色包括:1)完整代码均配有中文注释,降低学习门槛;2)系统覆盖预训练、微调、强化学习等核心环节;3)提供详实的配套原理文档。推荐学习路径从基础概念到模型构建,逐步深入各技术模块(如注意力机制、MOE网络等),最后实践训练流程。项目还包含梯度优化、评价指标等扩展内容,适合从零开始系统学习LLM开发。
2025-05-31 00:56:25
618
原创 大语言模型(LLM)入门 - (13) 激活函数
TiaoYu-1是一个面向初学者的开源大语言模型学习项目,其特点包括:1)代码全部配有中文注释,便于理解;2)覆盖完整训练流程,包含预训练、微调、强化学习等关键技术环节;3)提供配套原理文档。项目采用模块化学习路径,从基础概念到具体实现层层递进,包括模型架构、注意力机制等核心组件,支持从理论到实践的完整学习体验。特别适合希望系统了解LLM技术细节的开发者自学使用。
2025-05-31 00:55:29
741
原创 大语言模型(LLM)入门 - (12) 交叉熵损失
TiaoYu-1是一个面向初学者的开源大语言模型学习项目,提供完整的中文注释代码和配套原理文档。该项目涵盖了从预训练到推理的完整流程,包括SFT微调、RLHF强化学习、LoRA微调等关键技术模块。项目采用模块化学习路径,推荐从基础概念文档入手,逐步深入模型架构、注意力机制等核心组件(如FlashAttention、MOE网络),最后实践训练流程。特别适合希望通过代码实践结合理论学习来掌握LLM技术的开发者,所有代码均配有中文注释以降低学习门槛。
2025-05-31 00:54:30
907
原创 大语言模型(LLM)入门 - (11) MOE前馈神经网络
TiaoYu-1是一个面向初学者的开源大语言模型学习项目,其核心特点是代码带有详细中文注释,覆盖了完整的LLM训练流程,包括预训练、监督微调、强化学习等多个环节。项目采用模块化学习路径,推荐从基础概念文档开始,逐步深入模型构建、关键组件实现,最后到完整训练过程。配套文档系统讲解了注意力机制、前馈网络等核心模块原理。该项目既适合系统学习LLM实现原理,也可作为实践参考,特别为中文学习者提供了友好的入门资源。
2025-05-31 00:53:37
598
原创 大语言模型(LLM)入门 - (10) 多头掩码自注意力机制
TiaoYu-1是一个面向初学者的开源大语言模型入门项目,具有三大亮点:1)所有代码均配有中文注释,降低学习门槛;2)完整覆盖从预训练到推理的整个LLM开发流程,包括SFT、RLHF等关键技术;3)提供详细的配套文档体系。项目采用递进式学习路径,从基础概念到模型组件详解,再到完整训练实现,特别适合自学。额外提供NLP进阶内容如FlashAttention、MOE网络等扩展知识,以及GPT/BERT对比等补充材料,形成系统的LLM学习体系。
2025-05-31 00:52:50
589
原创 大语言模型(LLM)入门 - (9) 解码器模块
TiaoYu-1是一个面向初学者的开源大语言模型学习项目,其特点是代码配有详细中文注释,涵盖从预训练到推理的完整LLM开发流程。项目提供系统化的学习路径:从基础概念文档开始,到模型构建代码实现,再到各种训练方法(SFT、RLHF、LoRA等)。特别适合希望深入理解LLM技术细节的学习者,文档与代码结合的设计使其成为理论与实践的理想学习资源,项目在GitHub开源共享。
2025-05-31 00:51:55
615
原创 大语言模型(LLM)入门 - (8) 线性层
TiaoYu-1是一个面向初学者的开源大语言模型项目,特点是每行代码都有中文注释,便于理解。项目覆盖了完整的LLM开发流程,包括预训练、监督微调、强化学习、LoRA微调等核心环节,并配套详细原理文档。其结构化学习路径从基础概念到具体实现层层递进,包含模型结构、注意力机制、训练优化等关键环节的文档和代码解析。项目还提供多项可选内容,如评价指标、算法解析等扩展知识,非常适合LLM初学者系统性地学习。
2025-05-31 00:50:26
905
原创 大语言模型(LLM)入门 - (7) 归一化
TiaoYu-1是一个面向初学者的开源大语言模型(LLM)学习项目,具有三个突出特点:1)所有代码均配有中文注释,便于理解;2)覆盖完整的LLM训练流程,包括预训练、微调、强化学习等多种技术;3)提供系统的学习路径,从理论文档到代码实现循序渐进。项目特别适合LLM新手自学,通过文档与代码结合的方式,帮助开发者深入理解从模型构建到训练优化的各个环节,同时包含FlashAttention、MOE等前沿技术的实现。
2025-05-31 00:49:21
724
原创 大语言模型(LLM)入门 - (6) 位置编码
TiaoYu-1是一个开源的大语言模型学习项目,专为初学者设计。项目特点包括:1)所有代码都配有中文注释,便于理解;2)完整覆盖从预训练到推理模型的全流程;3)提供配套原理文档。学习路径分为四个阶段:概念理解、模型构建、代码实现和可选扩展知识。项目包含预训练、微调、强化学习等核心模块,以及FlashAttention、MOE等前沿技术实现。适合想要系统学习LLM原理和实践的开发者。
2025-05-31 00:48:18
834
原创 大语言模型(LLM)入门 - (5) 正则化
TiaoYu-1是一个面向初学者的中文大语言模型(LLM)学习项目。该项目特点包括:1)所有代码配有中文注释,易于理解;2)完整覆盖LLM训练全流程,包括预训练、SFT微调、RLHF强化学习、LoRA微调等;3)提供配套原理文档。学习路径设计合理,从概念到代码逐步深入,包含模型架构、注意力机制、优化方法等核心内容。项目还提供可选扩展知识,如评价指标、梯度问题处理等,适合LLM入门者系统学习。
2025-05-31 00:46:53
669
原创 大语言模型(LLM)入门 - (4) 嵌入层
《TiaoYu-1:中文注释完整的大语言模型学习项目》 TiaoYu-1是一个面向初学者的开源大语言模型学习项目,特色在于每行代码都配有中文注释,极大降低了学习门槛。该项目覆盖了完整的LLM训练全流程,包括预训练、监督微调、强化学习、LoRA微调等核心环节,并配有详细的原理文档。项目采用模块化学习路径,从基础概念到模型构建,再到各组件实现(如位置编码、注意力机制等),最后到完整训练流程,循序渐进。特别适合希望系统学习LLM技术细节的开发者,文档与代码结合的教学方式让理论学习与工程实践同步进行。
2025-05-31 00:45:22
543
原创 大语言模型(LLM)入门 - (3) 分词器
《TiaoYu-1:中文注释全面的大语言模型自学项目》 该项目是为初学者设计的大语言模型自学资源,主要特点包括: 提供完整训练流程代码,涵盖预训练、SFT微调、RLHF强化学习等关键环节 所有代码均配有详细中文注释,便于理解实现细节 配套原理文档与代码学习路径,推荐从概念到实现的系统学习顺序 包含模型架构各组件(注意力机制、位置编码等)的专项文档说明 额外提供NLP相关算法(如梯度消失、非极大抑制等)的补充知识文档 项目采用模块化设计,既适合系统学习LLM开发全流程,也方便针对特定组件进行深入研究。
2025-05-31 00:43:19
566
原创 大语言模型(LLM)入门 - (2) 模型构建
TiaoYu-1是一个面向初学者的开源大语言模型(LLM)自学项目,其核心特点是代码完全包含中文注释,便于理解。项目全面覆盖LLM训练全流程,包括预训练、监督微调(SFT)、人类反馈强化学习(ELHF)、LoRA微调、推理训练和知识蒸馏等环节,并配有详细的原理文档。该项目采用模块化学习路径,推荐从基础概念文档入手,逐步深入到模型构建、参数设置、关键组件实现等代码层面,最后完成全流程训练实践。项目还包含多个可选进阶内容,如模型评价指标、梯度问题处理等专题文档,适合不同学习阶段的开发者系统掌握LLM技术。Git
2025-05-31 00:41:40
640
原创 大语言模型(LLM)入门 - (1) 相关概念
TiaoYu-1是一个面向初学者的开源大语言模型(LLM)自学项目,具有代码注释完善、训练流程完整的特点。该项目覆盖预训练、监督微调(SFT)、人类反馈强化学习(ELHF)、LoRA微调等全流程,并配有详细原理文档。项目提供从基本概念到模型构建、再到具体实现的系统学习路径,包含分词器、注意力机制、损失函数等核心模块的代码与文档说明,特别适合LLM入门者按步骤学习。项目还涉及FlashAttention、MOE网络等前沿技术,并提供了多个可选学习模块,为学习者构建了完整的知识体系。
2025-05-31 00:38:30
1050
原创 新时代的前奏
本片是大语言模型LLM小白入门自学项目的一篇文章,目的是提醒AI相关从业者,在不断提升自己技术能力(招式)的同时,也要时刻思考自己的社会责任(内功),不要忘记为人民服务的宗旨。
2025-05-31 00:29:37
78
原创 基于R的数据挖掘方法与实践(3)——决策树分析
决策树构建的目的有两个——探索与预测。探索方面,参与决策树声场的数据为训练数据,待树长成后即可探索数据所隐含的信息。预测方面,可以借助决策树推导出的规则预测未来数据。由于需要考虑未来数据进入该模型的分类表现,因此在基于训练数据构建决策树之后,可以用测试数据来衡量该模型的稳健性和分类表现。通过一连串的验证过程,最后得到最佳的分类规则,用作未来数据的预测。1决策树构建理论决策树的建立步骤包括数
2017-09-16 20:23:49
5736
原创 基于R的数据挖掘方法与实践(2)——关联规则
关联规则是从庞大的数据中提取一系列变量或因子间关系,以探索数据的变量或项目间隐含的关系。1、基本原理关联规则通常用支持度、置信度、增益三个指标来分别表示其显著性、正确性和价值。通过给性最小支持度、最小置信度作为门槛值。若该规则的支持度与置信度大于门槛值,则说明该规则有助于进行推论;若该规则的增益大于1,则说明其发生的条件概率有比原先的概率提高,即该规则有效。1.1 支持度支持度计算
2017-09-15 15:09:42
3612
原创 基于R的数据挖掘方法与实践(1)——数据准备
1、数据检查数据检查是数据挖掘的第1步,从不同的维度检查数据,找出其中有问题的数据以便对其进行修正。1.1 数据类型查看数据的构成与形态,尤其是各列的属性。> library(MASS)> data(ChickWeight)> str(ChickWeight)Classes ‘nfnGroupedData’, ‘nfGroupedData’, ‘groupedData’ an
2017-09-13 14:32:30
2229
原创 1小时学会MySQL系列:(1)数据库与数据表
1、登录命令MYSQL -U 用户名 -P;输入密码登录2、查看、创建、删除数据库SHOW DATABASES;CREATE DATABASE 数据库名;DROP DATABASE 数据库名;3、查看数据库引擎SHOW ENGINES \G;4、创建、修改、删除表USE 数据库名;CREATE TABLE 表名 (属性名 数据类型 [完整性约束条件],
2017-09-08 17:39:25
562
原创 Windows7-32位系统下R语言链接mySQL数据库步骤
安装R和MySQL在此就不再多说了,网上有很多教程可以找到。下面直接进入到odbc的安装流程。1、下载安装mysql-connector-odbc-5.x.x-win32.msi下载地址:http://dev.mysql.com/downloads/connector/odbc/可下载最新版本但在安装过程中遇到以下问题:在网上搜寻之后发现如下解决办法,皆没有解决,在此也
2016-04-15 11:39:27
5076
转载 Eclipse+ADT+Android SDK 搭建安卓开发环境
运行环境windows 7下载地址环境下载最近开接触Android(安卓)嵌入式开发,首要问题是搭建Andoid开发环境,由于本人用的是windows7的笔记本,也就只能到Windows中搭建Android 开发环境了! 就搭建环境都花了比较长的时间, 在各种版本之间折腾了比较久的时间, 装好后SDK包更新又是一个比较大的麻烦(天朝的网络大家懂的--)。下面把我的安
2016-01-26 21:19:19
95298
1
原创 Java集合基础知识
1、为什么要使用集合要谈编程语言引入集合的原因,就不得不谈到集合与数组的差别:(1)长度:数组是固定长度;集合是可变长度。(2)元素性质:数组的元素可以是原生数据类型,也可以是引用类型;集合的元素只能是引用类型,原生数据类型必须装箱(jdk5.0之后有自动装箱和拆箱功能)之后才能放入集合之中。(3)元素类型:数据在定义之初就确定了存储数据的类型,因此也只能存储单一一种数据类型;
2015-12-09 09:23:58
1035
转载 eclipse快捷键汇总
一、几个最重要的快捷键代码助手:Ctrl+Space(简体中文操作系统是Alt+/)快速修正:Ctrl+1单词补全:Alt+/打开外部Java文档:Shift+F2 显示搜索对话框:Ctrl+H快速Outline:Ctrl+O打开资源:Ctrl+Shift+R打开类型:Ctrl+Shift+T显示重构菜单:Alt+Shift+T上一个/下一个光标的位置:
2015-10-14 13:04:39
478
原创 java 数组中的数据排序方法详解
数组的排序是开发中常见的问题,而且我们通常遇到的排序要求往往具有一定的特殊性,因此需要编程人员对数组的排序方法有一个大致的了解,以便针对特定的问题进行拓展、修改。1、java.util.Arrays中提供的排序方法java数组java.util.Arrays中提供了sort()和parallelSort()方法,在很多情况下可以满足排序的需求,但这两种方法目前只能对数据进行“升序”
2015-09-02 18:09:00
2665
原创 针对java初学者的java接口使用的注意事项
1、接口的修饰符是可选的。当省略时,则默认为默认访问权限。如果要用修饰符进行修饰,则只能用public修饰符。2、接口中的方法默认为public abstract的,在声明时可以显式地注明,也可以省略。如:interface InterfaceTestA{ public abstract void run();}等价于interface Interfa
2015-08-26 10:40:54
1166
空空如也
java中按钮添加addActionListener后没有效果
2016-03-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人