资深文章(前沿/经验/创新)
文章平均质量分 83
本专栏文章,为专业领域资深文章、含金量较高证书考题总结或者专业领域经验文章,以及代码案例综合实现,主要以行业实践经验积累、领域创新、好的idea为主。
优惠券已抵扣
余额抵扣
还需支付
¥299.90
¥399.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
一个处女座的程序猿
人工智能硕博学历,拥有十多项发明专利(6项)和软著(9项),包括国际期刊SCI内多篇论文,多个国家级证书(2个国三级、3个国四级),曾获国内外“人工智能算法”竞赛(包括国家级省市级等,一等奖5项、二等奖4项、三等奖2项)证书十多项,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。目前也是国内知名博主,连续3年获CSDN十大博客之星,荣获达摩院评测官、阿里社区/CSDN社区/51CTO/华为社区等十多个开发者社区专家博主荣誉,曾受邀阿里/华为/谷歌等社区采访-评审-论坛几十次。截止2022年,AI领域粉丝超100万,文章阅读量超5000万。正在撰写《AI算法最新实战》一书,目前已30万字
展开
-
LLMs之Text2Sql:大语言模型场景实战案例应用—让查询和问答应用更智能(利用LLMs与数据库交互)—Text2Sql任务的简介、多种技术方案(LLM/RAG/ETA等)、排行榜平台(如Spid
LLMs之SQL:大语言模型场景实战案例应用—让查询和问答应用更智能(利用LLMs与数据库交互,比如法律合同/简历/财务数据/客户支持)、多种技术方案(LLM/RAG等)目录相关文章Spider数据集的简介LLMs场景实战案例:查询(定位到准确目标)、搜索(查找到一个范围)现有案例实战应用相关文章LLMs:《Building LLM applications for production构建用于生产的LLM应用程序》翻译与解读LLMs:《Building LL原创 2023-11-26 10:21:49 · 554 阅读 · 0 评论 -
LLMs之Tool之ETA:通过现象看本质——探究国内外可以调用工具能力的LLM是如何实现自主选择工具的核心逻辑(本质就是以LLM作为选择的决策引擎),以及该能力的一些思考
LLMs之ETA:通过现象看本质——探究国内外可以调用工具能力的大模型是如何实现否调用或者是自主选择工具的本质逻辑(本质是LLM作为决策引擎),以及一些思考目录探究国内外可以调用工具能力的LLM是如何实现是否调用工具以及自主选择要调用合适工具的具体逻辑探究具体有调用工具能力LLM的一些关键技术:训练语料、命令LLM作为决策引擎时的提示词等探究国内外可以调用工具能力的LLM是如何实现是否调用工具以及自主选择要调用合适工具的具体逻辑你是一位大语言模型(LLM)算法专家,请你帮原创 2024-06-25 23:17:14 · 382 阅读 · 0 评论 -
LLMs之ChatGLM:查看AutoModelForCausalLM加载对应LLM模型结构方法—ChatGLM系列模型(ChatGLM-1/ChatGLM-2/ChatGLM-3/ChatGLM-4
LLMs之ChatGLM:ChatGLM-1、ChatGLM-1、ChatGLM-1、ChatGLM-1等网络架构详解及其对比(伪代码的形式)目录模型架构比较三大架构对比模型架构比较tokenizer=AutoTokenizer.from_pretrained(model_path,trust_remote_code=True)model=AutoModel.from_pretrained(model_path,trust_remote_code=True).flo原创 2024-06-20 02:04:05 · 504 阅读 · 0 评论 -
LLMs之Tool之ChatGLM-3-6B:模型微调实战(单论对话对微调+多轮对话微调【可包括工具调用能力】)——基于输入输出(prompt-response)格式AdvertiseGen、多轮对话
LLMs之ChatGLM3-6B:基于输入输出(prompt-response)格式AdvertiseGen、多轮对话格式数据集(AdvertiseGen/ToolAlpaca,模板四要素system-user-assistant-observation)→微调模型(利用全量微调/P-Tuning v2/LORA【暂未实现】微调+支持多卡/可继续微调)+仅微调模型对话额能力{system-user-assistant}/同时微调对话能力和工具调用能力{tools-system-user-assistan原创 2024-04-05 23:32:14 · 671 阅读 · 0 评论 -
LLMs之Tool之ChatGLM-3:解读ChatGLM3如何实现“工具调用”这一炸天功能(分别从ChatGLM3的源代码和训练样本数据视角)—system prompt(用户定义工具)→user
LLMs之Tool之ChatGLM3:解读ChatGLM3如何实现“工具调用”这一炸天功能(分别从ChatGLM3的源代码和训练样本数据视角)—system prompt(用户定义工具)→user prompt(用户提出问题)→assistant response(即LLM去识别是否使用工具【基于提供的工具和询问的问题】+然后判断要调用的工具函数及其入参【此处通过特殊的微调样本有加强LLM的这一能力】,包括metadata【函数名】/content【固定写死的tool_call()函数】)+system原创 2023-12-07 00:23:20 · 647 阅读 · 0 评论 -
成功解决AttributeError: module ‘pandas.core.strings‘ has no attribute ‘StringMethods‘
成功解决AttributeError: module 'pandas.core.strings' has no attribute 'StringMethods'目录解决问题解决方法解决问题AttributeError: module 'pandas.core.strings' has no attribute 'StringMethods'解决方法第一次尝试,猜测pandas和dask不兼容的问题导致!pip uninstall pandaspip uninstall原创 2024-06-05 00:21:28 · 1145 阅读 · 0 评论 -
LLMs之RAG:提高化RAG性能之优化分块Chuck的策略的常用方法(固定块大小、语义分块【句子分割/NLTK/spaCy/嵌入模型】、递归分块、结构分块【html/markdown/latex】)
LLMs之RAG:提高化RAG性能之优化分块Chuck的策略的常用方法(固定块大小、语义分块【句子分割/NLTK/spaCy/嵌入模型】、递归分块、结构分块【html/markdown/latex】)、代码实现(基于langchain框架)之详细攻略。原创 2024-06-09 22:20:22 · 1417 阅读 · 1 评论 -
成功解决CUDA Setup failed despite GPU being available. Inspect the CUDA SETUP outputs above to fix your
成功解决CUDA Setup failed despite GPU being available. Inspect the CUDA SETUP outputs above to fix your environment!目录解决问题解决思路解决方法解决问题===================================BUG REPORT===================================Welcome to bitsandbytes. For原创 2024-05-26 00:29:19 · 1147 阅读 · 0 评论 -
成功解决ValueError: could not convert string to float—深度刨析随森林模型RandomForestClassifier直接处理类别型特征报错原因及其解决方
成功解决ValueError: could not convert string to float—深度刨析随森林模型RandomForestClassifier直接处理类别型特征报错原因及其解决方案目录解决问题解决思路解决方法解决问题 File "E:\File_Python\Python_Books\Chapter_2\demo00001.py", line 111, in feature_importance_selector clf.fit(df原创 2024-05-29 01:56:00 · 980 阅读 · 0 评论 -
LLMs之FineTuning:在Colab平台采用LLaMA-Factory框架并基于T4 GPU实现一个端到端的模型微调流程—环境设置(需要GPU)→微调模型(采用llmtuner)→微调推理(基
LLMs之FineTuning:在Colab平台采用LLaMA-Factory框架并基于免费的Tesla T4 GPU实现一个端到端的模型微调流程—环境设置(需要GPU)→微调模型(采用llmtuner)→微调推理(基于Qwen1.5-0.5B模型+LoRA微调)→微调导出(将微调知识【LoRA权重】合并到原始模型中)目录在Colab平台采用LLaMA-Factory框架并基于免费的Tesla T4 GPU实现一个端到端的模型微调流程—环境设置(需要GPU)→微调模型(采用llmtuner)→微原创 2024-04-13 23:03:47 · 673 阅读 · 0 评论 -
LLMs之ReACT-Agent:ReACT-Agent简介、实现及其使用方法(MReACT/AutoReACT)、案例应用(比如采用ReAct框架让LLM稳定输出JSON格式数据)之详细攻略
Prompt的案例应用(比如采用ReAct框架让LLM稳定输出JSON格式数据)1、原创 2024-05-29 01:59:28 · 1322 阅读 · 0 评论 -
LLMs:预训练大模型实现全流程详解之模型训练各种技巧原理细讲—3.2、模型预训练及优化:降内存优化之AMP混合精度训练的简介、原理剖解、案例应用之详细攻略
LLMs:预训练大模型实现全流程详解之模型训练各种技巧原理细讲—3.2、模型预训练及优化:降内存优化之AMP混合精度训练的简介、原理剖解、案例应用之详细攻略目录机器学习和深度学习中数据的表示/存储方式、量化技术(预估显存占用的计算方式):双精度、单精度float32、半精度float16(FP16/BF16)、4bit量化(INT4)的联系与区别1、浮点数表示格式的简介——LLMs中的AMP混合精度训练技术2、整数和固定点数格式的简介——LLMs中的模型量化技术AMP混合精度原创 2024-05-14 18:53:16 · 1451 阅读 · 0 评论 -
LLMs之Transformer:深度剖析类Transformer的大语言模型中的显存占用估计(显存占用构成,训练阶段/推理阶段)、耗时估计(计算量占用构成,训练阶段/推理阶段)之详细攻略
LLMs之Transformer:深度剖析类Transformer的大语言模型中的显存占用估计(显存占用构成,训练阶段/推理阶段)、耗时估计(计算量占用构成,训练阶段/推理阶段)之详细攻略目录LLMs空间计算—显存占用估计LLMs耗时计算—计算时间估计:LLMs空间计算—显存占用估计Transformer模型的计算量主要集中在权重矩阵乘法计算。计算量分析表明,权重矩阵乘法的计算量相较于其他操作可以忽略不计。对于一个token,每个模型参数,需要进行2次浮点数运算。显原创 2024-05-15 01:04:23 · 1436 阅读 · 0 评论 -
LLMs之ChatGLM-3:解读ChatGLM3-6B模型微调(多卡全量微调/单卡P-Tuning v2微调)所有sh脚本文件(finetune_ds.sh /finetune_pt.sh、fine
LLMs之ChatGLM3:解读ChatGLM3-6B模型微调(多卡全量微调/单卡P-Tuning v2微调)所有sh脚本文件(finetune_ds.sh /finetune_pt.sh、finetune_ds_multiturn.sh/finetune_pt_multiturn.sh)—实现基于PyTorch框架分布式训练并采用混合精度训练+梯度累积等技术微调训练大型语言模型目录1、基于简单输入/输出数据集的微调ChatGLM3-6B2、基于多轮对话数据集的微调ChatGLM3-6原创 2023-12-07 00:45:38 · 493 阅读 · 0 评论 -
LLMs之ChatGLM-3:finetune.py文件解读—基于数据集(多轮对话格式/输入-输出格式)来微调ChatGLM3-6B模型来适应特定的任务(如对话系统)—参数解析和配置→加载预训练模型和
LLMs之ChatGLM3:finetune.py文件解读—基于数据集(多轮对话格式/输入-输出格式)来微调ChatGLM3-6B模型来适应特定的任务(如对话系统)—参数解析和配置→加载预训练模型和分词器(P-tuning v2技术+模型量化技术)→数据预处理(支持不同格式的训练数据【多轮对话格式/输入-输出格式】)→初始化数据收集器和训练器→模型训练(基于PyTorch分布式框架+梯度累积+梯度检查点技术等,显存21G/对比推理需要13G)目录finetune.py文件解读—基于数据集(多轮对原创 2023-12-14 01:29:24 · 504 阅读 · 0 评论 -
LLMs之Grok-1:model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算
LLMs之Grok-1:model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算目录model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算全部代码model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算源码地址:grok-1/model.py at main · xai-org/grok-1原创 2024-03-24 00:33:57 · 1252 阅读 · 0 评论 -
LLMs:大模型核心技术—上下文窗口长度技术的简介(核心技术拆解)、发展历史、案例应用之详细攻略
LLMs:大模型核心技术—上下文窗口长度技术的简介(核心技术拆解)、发展历史、案例应用之详细攻略目录上下文窗口长度技术的简介上下文窗口长度技术的简介背景上下文窗口长度参数是大语言模型的一部分,它在模型的训练时起作用,决定了模型能够理解的上下文文本长度。而输入文本的最大长度是在实际使用模型进行推理或生成文本时的一个实际限制,决定了可以传递给模型的文本的最大长度。>> 上下文窗口长度()通常是模型训练时的一个超参数,决定了模型在训练时可以看到的上下文文本的长原创 2023-11-08 00:02:57 · 1355 阅读 · 0 评论 -
AI之DL:人工智能领域—深度学习的发展历程之深度学习爆发的三大因素、探究DL为什么耗算力
针对梯度消失等问题,算法进行了优化。,比如深度神经网络的梯度消失问题,神经网络长期以来存在的问题是梯度消失,即在反向传播过程中,每一层都乘以激活函数的导数值,如果这个导数的绝对值小于1,经过多次乘法后梯度很快趋近于零,导致前面的层无法得到有效的更新。:如图是基于TensorFlow 的分布式学习的效果,横轴是GPU的个数,纵轴是与单个GPU相比时的加速倍数。>> 位数精度的缩减加速: 提到了降低位数精度的技术,即使用较低位数的浮点数来表示权重和激活值,从而减轻计算负担,实现深度学习的高速化。原创 2024-01-28 23:36:12 · 1505 阅读 · 1 评论 -
LLMs:Ghost Attention(GAtt)机制的简介(改进多轮对话+帮助注意力聚焦)、原理、作用之详细攻略
LLMs:Ghost Attention(GAtt)机制的简介(改进多轮对话+帮助注意力聚焦)、原理、作用之详细攻略目录来源Ghost Attention(GAtt)机制的简介、原理、作用来源LLMs之LLaMA-2:LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略https://yunyaniu.blog.csdn.net/article/details/131819938Ghost Attention(GAtt)机制的简介、原理、作原创 2024-01-10 21:42:48 · 1562 阅读 · 1 评论 -
NLP之Transformer:六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、统计各模块可训练参数、全流程各子模块原理详解(IE+PE→Encoder【MHSA+Add&Norm+P
NLP之Transformer:Transformer算法的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、全流程各子模块原理详解——输入Embedding+位置编码、Encoder(MHA→PwFFNN)、Decoder(MaskeMHA→MHA→PwFFNN)、Linear+Softmax之详细攻略目录相关文章一、Transformer算法拆解图:吊炸天的序列模型二、Transformer的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)原创 2022-02-28 00:00:54 · 4353 阅读 · 1 评论 -
LLMs之Code:大语言模型纵向赋能场景—垂直行业场景应用之大模型代码场景的简介、主流LLMs(SQLCoder/Code Llama/Ziya-Coding/CodeShell等)及其评估
LLMs之Code:大语言模型纵向赋能场景—垂直行业场景应用之大模型代码场景的简介、主流LLMs(SQLCoder/Code Llama/Ziya-Coding/CodeShell等)及其评估基准(包括数据集)、案例应用之详细攻略目录大模型代码场景的简介大模型代码场景的主流LLMs及其评估基准(包括数据集)大模型代码场景的案例应用大模型代码场景的简介简介大模型代码场景是指将大型语言模型(如GPT-3、GPT-4等)用于生成、修改、理解和解释计算机编程代码的各原创 2023-11-03 00:00:35 · 1712 阅读 · 0 评论 -
LLMs之HFKR:HFKR(基于大语言模型实现异构知识融合的推荐算法)的简介、原理、性能、实现步骤、案例应用之详细攻略
LLMs之HFKR:HFKR(基于大语言模型实现异构知识融合的推荐算法)的简介、原理、性能、实现步骤、案例应用之详细攻略目录HFKR的简介HFKR的简介异构知识融合:一种基于LLM的个性化推荐新方法论文 《Heterogeneous Knowledge Fusion: A Novel Approach for Personalized Recommendation via LLM》翻译与解读地址地址:https://arxiv.org/abs/2308.03333时间原创 2023-11-02 00:11:20 · 1706 阅读 · 0 评论 -
AGI之Agent:Agent(一种训练LLM模拟人类在现实世界中各种规则和行为系统)的简介、部署应用及其框架、代表性案例(单智能体(BabyAGI/AutoGPT/HuggingGPT/GPT-En
Agent的实战部署应用LLMs之ChatGLM3:ChatGLM3/ChatGLM3-6B的简介(多阶段增强+多模态理解+AgentTuning技术)、安装和使用方法、案例应用(实现多轮对话能力(Chat)、工具调用能力(-CSDN博客LLMs之GLM-4:GLM-4的简介(全覆盖【对话版即ChatGLM4的+工具调用+多模态文生图】能力→Agent)、安装和使用方法、案例应用之详细攻略-CSDN博客2、部署框架T1、基于。原创 2023-06-17 01:27:31 · 1127 阅读 · 0 评论 -
LLMs之RAG:基于LangChain框架利用ChatGPT的API实现一个与在线网页交互的对话机器人—五大思路步骤—加载文档WebBaseLoader网址文件→文档分割(chunk_size=50
LLMs之RAG:基于LangChain框架利用ChatGPT的API实现一个与在线网页交互的对话机器人—五大思路步骤—加载文档WebBaseLoader网址文件→文档分割(chunk_size=500)→文本嵌入化(OpenAIEmbeddings)并存储到向量库(Chroma)→构造Prompt(拉取一个对象并将其返回为 LangChain对象)→定义LLMs(ChatOpenAI)→输入查询文本来构造RAG chain并利用LLMs生成响应目录相关文章LLMs之RAG:基于Lang原创 2023-10-19 23:55:14 · 2250 阅读 · 0 评论 -
VDB之Faiss:利用Faiss工具实现检索相似向量TopK的三步流程详解(创建向量库→构建索引并将向量库中的向量添加到索引中→利用k最近邻搜索找出TopK的相似query)及其代码实现之详细攻略
VDB之Faiss:利用Faiss工具实现检索相似向量TopK的三步流程详解(创建向量库→构建索引并将向量库中的向量添加到索引中→利用k最近邻搜索找出TopK的相似query)及其代码实现之详细攻略目录利用Faiss工具实现检索相似向量TopK的三步流程详解及其代码实现利用Faiss工具实现检索相似向量TopK的三步流程详解及其代码实现# 1、创建向量库:利用numpy自定义实现xb数据库、xq查询向量'''获取一些数据Faiss处理具有固定维度d的向量集合,通常是几十到几百。原创 2023-06-17 00:20:47 · 1112 阅读 · 0 评论 -
LLMs之RAG:基于LangChain框架+Blendle示例数据(手册)+ChatGPT接口实现与Notion数据库(Notion提供知识内容+Faiss提供快速搜索能力+pkl文件存储和加载Fa
LLMs之RAG:基于LangChain框架+Blendle示例数据(手册)+ChatGPT接口实现与Notion数据库(Notion提供知识内容+Faiss提供快速搜索能力+pkl文件存储和加载Faiss索引)提问并部署到StreamLit前端界面实现QA交互代码实战—解读多个py文件(利用ingest.py文件将从Notion的数据导入到LangChain中+利用qa.py文件实现向Notion数据库提出问题并获取答案和相关资源+利用main.py文件实现利用Streamlit构建的前端界面实现与一原创 2023-10-20 23:39:17 · 1427 阅读 · 0 评论 -
IRC/ML:金融智能风控—信贷风控场景简介、两大场景(贷款场景+信用卡场景)、信用卡评分模型设计、反欺诈检测技术的简介、案例应用之详细攻略
IRC/ML:金融智能风控—信贷风控场景简介、两大场景(贷款场景+信用卡场景)、信用卡评分模型设计、反欺诈检测技术的简介、案例应用之详细攻略目录信贷风控简介信贷风控两大场景信用卡反欺诈检测的简介信贷风控简介简介银行的主要收入或者利润来源来自贷款和信用卡,简称信贷。贷款和信用卡,我们统称为信贷。他们都有着相似的风控逻辑。风控思路使用传统的评分卡模型、决策树、神经网络等算法,根据借款人的个人信息、信用记录、还款历史等因素,评估其信用风险和偿还能力。原创 2023-10-15 23:45:43 · 2066 阅读 · 0 评论 -
NLP:基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例实现代码
NLP:基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例实现代码目录基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与推理# 4、模型推理实现代码基于对文本数据利用LSTM算法(tensorfl原创 2023-10-15 23:27:43 · 1095 阅读 · 2 评论 -
LLMs之BELLE:源码解读(merge_tokenizers.py文件)扩充词表—训练和合并两个不同的SentencePiece分词模型—使用SentencePiece库来训练一个名为belle的
LLMs之BELLE:源码解读(merge_tokenizers.py文件)扩充词表—训练和合并两个不同的SentencePiece分词模型—使用SentencePiece库来训练一个名为belle的BPE分词器→加载两个现有的分词器模型→for循环对比去重的方式合并词汇表→保存合并后的新分词器模型。原创 2023-10-10 00:18:05 · 1011 阅读 · 0 评论 -
NLP之TextSimil:基于两份文档实现计算相似度—分词(将token文本转换为序列)→模型训练(采用循环神经网络=嵌入层Embedding+LSTM层的RNN模型)来学习文档表示(语义信息的向量
NLP之TextSimil:基于两份文档(将token文本转换为序列)利用循环神经网络(嵌入层(Embedding)+LSTM层的RNN模型)来学习文档表示(语义信息的向量表示)再利用余弦相似度法目录基于两份文档(将token文本转换为序列)利用循环神经网络(嵌入层(Embedding)+LSTM层的RNN模型)来学习文档表示(语义信息的向量表示)再利用余弦相似度法# 1、定义文档# 2、数据预处理# 3、模型编译与训练# 4、计算余弦相似度实现代码基于两份文档原创 2023-10-08 23:50:01 · 928 阅读 · 0 评论 -
LLMs之Baichuan2:源码解读(fine-tune.py文件,基于deepspeed )—解析命令行参数→数据预处理(对消息内容进行分词处理+if判断对话角色(来自用户还是助手)并为对话内容
LLMs之Baichuan2:源码解读(fine-tune.py文件,基于deepspeed )—解析命令行参数→数据预处理(对消息内容进行分词处理+if判断对话角色(来自用户还是助手)并为对话内容添加各自角色对应的特殊token进而生成对应的输入和标签+添加结束符token+截断或填充操作)→模型训练(LoRA优化)目录源码解读(fine-tune.py文件,基于deepspeed )—解析命令行参数→数据预处理(对消息内容进行分词处理+if判断对话角色(来自用户还是助手)并为对话内容添加各自原创 2023-09-14 00:06:52 · 1381 阅读 · 0 评论 -
NLP:利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例实现代码
NLP:利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例实现代码目录利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例# 1、定义文本数据# 2、基于进行依存分析实现代码利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构原创 2023-09-17 23:37:33 · 1005 阅读 · 0 评论 -
NLP之NLTK:对文本进行预处理操作(利用jieba分词+合并+利用re去掉标点符号和空格+去重+利用nltk词性标注并转为字典、特征编码并存为字典、标签编码并存为字典)实现实际样本特征编码、实际样
NLP:对文本进行预处理操作(利用jieba分词+合并+利用re去掉标点符号和空格+去重+利用nltk词性标注并转为字典、特征编码并存为字典、标签编码并存为字典)实现实际样本特征编码、实际样本标签编码应用案例。原创 2023-09-17 23:34:54 · 1169 阅读 · 0 评论 -
ML之MetaCost:基于泰坦尼克号数据集(独热编码/标签编码)利用MetaCost算法(DT+LiR,基分类器训练→计算错误代价→训练元模型→预测与调整)实现二分类预测应用案例
ML之MetaCost:基于泰坦尼克号数据集(独热编码/标签编码)利用MetaCost算法(DT+LiR,基分类器训练→计算错误代价→训练元模型→预测与调整)实现二分类预测应用案例目录基于泰坦尼克号数据集(独热编码/标签编码)利用MetaCost算法(DT+LiR,基分类器训练→计算错误代价→训练元模型→预测与调整)实现二分类预测应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与评估# 4、基于base_classifier利用MetaCost算法实现原创 2023-09-17 23:31:22 · 650 阅读 · 0 评论 -
XAI之EBM:基于泰坦尼克数据集利用EBM算法(interpret库)实现可解释性(可视化EBM模型及其决策过程+局部解释+全局解释)之详细攻略
其中包括了每个特征的重要性和对模型预测的影响。原创 2023-09-17 23:29:34 · 949 阅读 · 0 评论 -
LLMs之Chinese-LLaMA-Alpaca-2:源码解读(run_clm_sft_with_peft.py文件)—模型训练前置工作(参数解析+配置日志)→模型初始化(检测是否存在训练过的che
用于控制模型权重和计算的数据类型,确定计算过程中使用的数据类型,用半精度浮点数float16、Bfloat16或单精度浮点数float32。原创 2023-09-17 23:15:45 · 1637 阅读 · 1 评论 -
LLMs之Chinese-LLaMA-Alpaca-2:源码解读(run_clm_pt_with_peft.py文件)—模型训练前置工作(参数解析+配置日志)→模型初始化(检测是否存在训练过的chec
LLMs之Chinese-LLaMA-Alpaca-2:源码解读(run_clm_pt_with_peft.py文件)—模型训练前置工作(参数解析+配置日志)→模型初始化(检测是否存在训练过的checkpoint+加载预训练模型和tokenizer)→数据预处理(处理【标记化+分块】+切分txt数据集)→优化模型配置(模型量化+匹配模型vocabulary大小与tokenizer+初始化PEFT模型【LoRA】+CheckPointing等)→模型训练(继续训练+评估指标+自动保存中间训练结果)/模型评原创 2023-08-31 23:59:16 · 1266 阅读 · 0 评论 -
LLMs之ChatGLM2:ChatGLM-Finetuning之源码解读(train.py文件)—解析命令→加载数据→模型训练(四种方式微调+DeepSpeed封装数据并行)+模型保存(定期输出lo
LLMs之ChatGLM2:ChatGLM-Finetuning之源码解读(train.py文件)—解析命令行(模型路径+数据集相关【最大序列长度/最大输入长度】+训练参数相关【批次大小/学习率/权重衰减系数/训练轮数/梯度累计步数/学习率预热比例】+结果输出相关【输出路径/训练方式【四种方式微调,如Freeze/Lora/P-Tuning/全量参数】/进程标志/loss频率/保存模型频率】+否启用梯度检查点+DeepSpeed配置+LoRA/Freeze/P-tuning配置)及初始化设置(是否启用分原创 2023-09-16 08:12:20 · 1146 阅读 · 0 评论 -
PTM:大模型加速方法或框架(预训练阶段/推理阶段)的简介、常用框架(Megatron-LM/Colossal-AI/DeepSpeed等,FasterTransformer/FastLLM/vLLM
PTM:大模型加速方法或框架(预训练阶段/推理阶段)的简介、常用框架(Megatron-LM/Colossal-AI/DeepSpeed等,FastLLM/vLLM等)、案例应用之详细攻略目录一、大模型预训练阶段—加速方法或框架(以分布式深度学习为核心)二、大模型推理阶段—加速方法或框架持续更新中……一、大模型预训练阶段—加速方法或框架(以分布式深度学习为核心)1.1、训练阶段—加速方法或框架的概述背景随着预训练语言模型研究的不断深入,原创 2023-09-14 08:28:15 · 2254 阅读 · 0 评论 -
DNN之LNN:训练大型神经网络的核心技术(数据并行+管道并行+张量并行+专家混合MoE+内存优化策略【CheckPoint梯度检查点/AMP混合精度训练/Offloading数据卸载/优化器内存优化
DNN之LNN:训练大型神经网络的核心技术(数据并行+管道并行+张量并行+专家混合MoE+内存优化策略【CheckPoint梯度检查点/AMP混合精度训练/Offloading数据卸载/优化器内存优化/压缩技术)之详细攻略DNN之LNN:《Techniques for training large neural networks训练大型神经网络的技术》训练大型神经网络的核心技术(数据并行+管道并行+张量并行+专家混合MoE+内存优化策略【CheckPoint梯度检查点/AMP混原创 2022-11-06 23:12:51 · 1452 阅读 · 0 评论