一切皆是映射:深度强化学习原理与应用实战_AGI通用人工智能之禅的博客-CSDN博客

一切皆是映射:深度强化学习原理与应用实战

关注

文章平均质量分 93

一切皆是映射:AI人工智能与大数据原理与应用实战

关注数：文章数：195 文章阅读量：14336 文章收藏量：2

作者: AGI通用人工智能之禅

著有《AI大模型应用入门实战与进阶》(写作中)《ClickHouse入门实战与进阶》《Kotlin 极简教程》《Spring Boot开发实战》《Kotlin从入门到进阶实战》等技术书籍。资深程序员、大数据与后端技术专家、架构师，拥有超过10年的技术研发和管理经验。现就职于字节跳动，曾就职于阿里巴巴，主要从事企业智能数字化经营管理、电商智能数字化运营等系统架构设计和研发工作。在大数据和企业级系统架构领域有非常深厚的积累，擅长大数据系统架构和分布式系统架构设计开发。热衷于新技术的学习和技术分享。

展开

大规模语言模型从理论到实践广义优势估计

大规模语言模型从理论到实践：广义优势估计1. 背景介绍1.1 问题的由来随着大规模语言模型的崛起，特别是Transformer架构的普及，人们开始探索如何更有效地利用这些模型进行自然语言处理任务。大规模语言模型因其强大的上下文理解

原创 2024-07-25 00:45:52 · 1 阅读 · 0 评论
大规模语言模型从理论到实践大语言模型的构建流程

大规模语言模型从理论到实践：大语言模型的构建流程关键词：大规模语言模型构建流程深度学习自然语言处理神经网络架构1. 背景介绍

原创 2024-07-25 00:45:21 · 89 阅读 · 0 评论
从零开始大模型开发与微调：PyTorch 2.0中的模块工具

从零开始大模型开发与微调：PyTorch 2.0中的模块工具1. 背景介绍1.1 问题的由来在深度学习领域，构建和训练大规模神经网络模型已成为研究和应用的核心。随着数据集的增大以及任务复杂度的提升，开发高效、灵活

原创 2024-07-25 00:44:50 · 2 阅读 · 0 评论
从零开始大模型开发与微调：字符（非单词）文本的处理

从零开始大模型开发与微调：字符（非单词）文本的处理1. 背景介绍1.1 问题的由来在自然语言处理领域，文本数据通常被划分为单词级进行处理。然而，对于某些应用，例如音译转换、字符级别的文本生成、或者在多语言环境下处理时，直

原创 2024-07-25 00:44:19 · 2 阅读 · 0 评论
从零开始大模型开发与微调：使用torch.utils.data. Dataset封装自定义数据集

从零开始大模型开发与微调：使用torch.utils.data.Dataset封装自定义数据集1. 背景介绍1.1 问题的由来在深度学习领域，构建一个有效的模型通常需要大量的训练数据

原创 2024-07-25 00:43:48 · 0 阅读 · 0 评论
从零开始大模型开发与微调：使用其他预训练参数来生成PyTorch 2.0词嵌入矩阵（中文）

从零开始大模型开发与微调：使用其他预训练参数来生成PyTorch 2.0词嵌入矩阵（中文）关键词：PyTorch 2.0大模型开发微调预训练参数

原创 2024-07-25 00:43:17 · 0 阅读 · 0 评论
从零开始大模型开发与微调：模型的准备和介绍

1. 背景介绍1.1 问题的由来在当前的AI领域，大模型的开发与微调已经成为了一种趋势。从GPT-3到BERT，越来越多的大模型在各种任务中表现出色，引领了人工智能的新一轮发展。然而，大模型的开发与微调并非易事，特别是对于初学者来说，如何从零开始开发并微调大模型，是一个极具挑战性的问题。

原创 2024-07-25 00:42:46 · 0 阅读 · 0 评论
从零开始大模型开发与微调：基于ResNet的CIFAR10数据集分类

从零开始大模型开发与微调：基于ResNet的CIFAR-10数据集分类关键词：ResNetCIFAR-10数据集深度学习框架微调策略PyTorch

原创 2024-07-25 00:42:15 · 0 阅读 · 0 评论
从零开始大模型开发与微调：基本卷积运算示例

从零开始大模型开发与微调：基本卷积运算示例关键词：卷积运算大型神经网络模型微调TensorFlowPyTorch1. 背景介绍

原创 2024-07-25 00:41:45 · 0 阅读 · 0 评论
词是什么，如何分词

基于规则的方法：使用正则表达式或预先定义的语言规则进行分词。基于统计的方法：利用N-gram模型或词频统计进行分词。基于深度学习的方法：采用循环神经网络（RNN）、长短时记忆网络（LSTM）或Transformer架构进行序列到序列学习。精准度提升：通过更高级的模型和更多的训练数据，分词的准确率有望进一步提高。适应性增强：分词技术将更加适应不同的语言和领域，包括多语言处理和特殊领域专用语言。

原创 2024-07-25 00:41:14 · 34 阅读 · 0 评论
持续学习Continual Learning原理与代码实例讲解

持续学习 Continual Learning原理与代码实例讲解1. 背景介绍1.1 问题的由来在机器学习和人工智能领域，持续学习（Continual Learning）是一个至关重要的研究方向。随着科技的

原创 2024-07-25 00:40:43 · 0 阅读 · 0 评论
财经分析中的AI：如何用大模型预测市场趋势

财经分析中的AI：如何用大模型预测市场趋势关键词：大模型预测市场趋势分析时间序列预测经济指标识别AI辅助投资决策1. 背景介绍

原创 2024-07-25 00:40:12 · 0 阅读 · 0 评论
变分自编码器 (Variational Autoencoder)

1. 背景介绍1.1 问题的由来在机器学习领域，我们常常需要处理高维度的数据。然而，高维度数据的处理和分析是一项具有挑战性的任务，因为我们需要找到一种有效的方式来理解和利用这些数据的内在结构。自编码器是一种能够用于解决这个问题的技术，它可以通过学习数据的低维度表示来实现数据的压缩和解压缩。然而，传统的

原创 2024-07-25 00:39:41 · 0 阅读 · 0 评论
【大模型应用开发动手做AI Agent】大模型就是Agent的大脑

【大模型应用开发动手做AI Agent】大模型就是Agent的大脑1. 背景介绍1.1 问题的由来在当今数字化时代，人工智能技术正以前所未有的速度发展，特别是在大型语言模型（Large Languag

原创 2024-07-25 00:39:10 · 0 阅读 · 0 评论
从零开始大模型开发与微调：多头注意力

从零开始大模型开发与微调：多头注意力关键词：大模型开发微调策略多头注意力机制Transformer架构自适应学习率1. 背景介绍

原创 2024-07-25 00:38:39 · 0 阅读 · 0 评论
一切皆是映射：DQN在金融市场预测中的应用：挑战与机遇

一切皆是映射：DQN在金融市场预测中的应用：挑战与机遇作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：深度强化学习，DQN，金融市场预测，挑战，机遇1. 背景介绍

原创 2024-07-24 00:59:41 · 6 阅读 · 0 评论
一切皆是映射：强化学习基础及其与深度学习的结合

一切皆是映射：强化学习基础及其与深度学习的结合作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着人工智能技术的

原创 2024-07-24 00:59:10 · 5 阅读 · 0 评论
一切皆是映射：量子深度学习：下一代AI技术

一切皆是映射：量子深度学习：下一代AI技术作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来自从深度学习成为人工智能领

原创 2024-07-24 00:58:40 · 6 阅读 · 0 评论
物理学中的群论：SO(N)群的旋量表示

物理学中的群论：SO(N)群的旋量表示作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来群论是现代物理学和数学的基础工具之一，

原创 2024-07-24 00:58:09 · 5 阅读 · 0 评论
强化学习Reinforcement Learning在智能制造中的角色与价值

强化学习Reinforcement Learning在智能制造中的角色与价值作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：强化学习，智能制造，自动化，优化，决策

原创 2024-07-24 00:57:38 · 1 阅读 · 0 评论
强化学习Reinforcement Learning在智慧城市中的应用案例

强化学习Reinforcement Learning在智慧城市中的应用案例作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：强化学习

原创 2024-07-24 00:57:07 · 3 阅读 · 0 评论
李群与李代数基础：第6节纤维丛

李群与李代数基础：第6节纤维丛作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来纤维丛理论是现代数学中一个重要的分支，起源于微

原创 2024-07-24 00:56:36 · 3 阅读 · 0 评论
黎曼几何引论：Ricci曲率和数量曲率

黎曼几何引论：Ricci曲率和数量曲率作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来黎曼几何是研究几何形状、曲率和流形

原创 2024-07-24 00:56:05 · 1 阅读 · 0 评论
基于向量数据库的深度学习特征存储与快速检索

基于向量数据库的深度学习特征存储与快速检索作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：向量数据库，深度学习，特征存储，快速检索，相似度计算，大规模数据1. 背景介绍

原创 2024-07-24 00:55:34 · 2 阅读 · 0 评论
基于生成对抗网络的图像风格自适应迁移优化策略研究

基于生成对抗网络的图像风格自适应迁移优化策略研究作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着深度学习技

原创 2024-07-24 00:55:03 · 1 阅读 · 0 评论
大语言模型应用指南：防御策略

大语言模型应用指南：防御策略作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着人工智能技术的飞速发展，大语言模型（LLMs）在自

原创 2024-07-24 00:54:32 · 2 阅读 · 0 评论
大规模语言模型从理论到实践模型并行

大规模语言模型从理论到实践模型并行作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着深度学习技术的飞速发展，大规模语言

原创 2024-07-24 00:54:01 · 76 阅读 · 0 评论
半监督学习(SemiSupervised Learning) 原理与代码实例讲解

半监督学习(Semi-Supervised Learning) - 原理与代码实例讲解1. 背景介绍1.1 问题的由来在机器学习和数据科学的领域，数据集通常分为两类：有标签数据（super

原创 2024-07-24 00:53:30 · 100 阅读 · 0 评论
巴拿赫空间引论：分隔性定理

巴拿赫空间引论：分隔性定理关键词：分隔性定理巴拿赫空间序列空间凸集最小化问题1. 背景介绍1.1 问

原创 2024-07-24 00:52:59 · 0 阅读 · 0 评论
可信AI与模型鲁棒性原理与代码实战案例讲解

可信AI与模型鲁棒性原理与代码实战案例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着人工智能技术的快速发展

原创 2024-07-24 00:52:28 · 105 阅读 · 0 评论
【AI大数据计算原理与代码实例讲解】容器

【AI大数据计算原理与代码实例讲解】容器作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着人工智能（AI）和大数据技

原创 2024-07-23 01:25:08 · 7 阅读 · 0 评论
【LangChain编程：从入门到实践】框架比较

【LangChain编程：从入门到实践】框架比较作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着人工智能技

原创 2024-07-23 01:24:37 · 11 阅读 · 0 评论
从零开始大模型开发与微调：实战编码器：拼音汉字转化模型

从零开始大模型开发与微调：实战编码器：拼音汉字转化模型作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随

原创 2024-07-23 01:24:06 · 13 阅读 · 0 评论
大语言模型原理与工程实践：低秩适配

大语言模型原理与工程实践：低秩适配作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着深度学习技术的飞速发展，大语言模型（L

原创 2024-07-23 01:23:35 · 6 阅读 · 0 评论
多任务学习MultiTask Learning原理与代码实例讲解

多任务学习Multi-Task Learning原理与代码实例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：多任务学习，任务共享，模型优化，迁移学习，深度学习

原创 2024-07-23 01:23:04 · 7 阅读 · 0 评论
强化学习Reinforcement Learning与逆强化学习：理论与实践

强化学习Reinforcement Learning与逆强化学习：理论与实践作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍

原创 2024-07-23 01:22:33 · 1 阅读 · 0 评论
强化学习Reinforcement Learning在智慧交通系统中的创新应用

强化学习Reinforcement Learning在智慧交通系统中的创新应用作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：强化学习，智慧交通系统，交通流量优化，自动驾驶，交通信号控制

原创 2024-07-23 01:22:02 · 0 阅读 · 0 评论
一切皆是映射：DQN算法改进历程与关键技术点

一切皆是映射：DQN算法改进历程与关键技术点作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来深度强化学习（Deep

原创 2024-07-23 01:21:30 · 9 阅读 · 0 评论
支持向量机SVM原理与代码实例讲解

支持向量机SVM原理与代码实例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来支持向量机（Support Vector

原创 2024-07-23 01:20:59 · 1 阅读 · 0 评论
AI Agent: AI的下一个风口对研究者和实践者的建议

AI Agent: AI的下一个风口对研究者和实践者的建议作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来

原创 2024-07-23 01:20:28 · 0 阅读 · 0 评论

一切皆是映射:深度强化学习原理与应用实战

作者: AGI通用人工智能之禅

大规模语言模型从理论到实践 广义优势估计

大规模语言模型从理论到实践 大语言模型的构建流程

从零开始大模型开发与微调：PyTorch 2.0中的模块工具

从零开始大模型开发与微调：字符（非单词）文本的处理

从零开始大模型开发与微调：使用torch.utils.data. Dataset封装自定义数据集

从零开始大模型开发与微调：使用其他预训练参数来生成PyTorch 2.0词嵌入矩阵（中文）

从零开始大模型开发与微调：模型的准备和介绍

从零开始大模型开发与微调：基于ResNet的CIFAR10数据集分类

从零开始大模型开发与微调：基本卷积运算示例

词是什么，如何分词

持续学习Continual Learning原理与代码实例讲解

财经分析中的AI：如何用大模型预测市场趋势

变分自编码器 (Variational Autoencoder)

【大模型应用开发 动手做AI Agent】大模型就是Agent的大脑

从零开始大模型开发与微调：多头注意力

一切皆是映射：DQN在金融市场预测中的应用：挑战与机遇

一切皆是映射：强化学习基础及其与深度学习的结合

一切皆是映射：量子深度学习：下一代AI技术

物理学中的群论：SO(N)群的旋量表示

强化学习Reinforcement Learning在智能制造中的角色与价值

强化学习Reinforcement Learning在智慧城市中的应用案例

李群与李代数基础：第6节 纤维丛

黎曼几何引论：Ricci曲率和数量曲率

基于向量数据库的深度学习特征存储与快速检索

基于生成对抗网络的图像风格自适应迁移优化策略研究

大语言模型应用指南：防御策略

大规模语言模型从理论到实践 模型并行

半监督学习(SemiSupervised Learning) 原理与代码实例讲解

巴拿赫空间引论：分隔性定理

可信AI与模型鲁棒性原理与代码实战案例讲解

【AI大数据计算原理与代码实例讲解】容器

【LangChain编程：从入门到实践】框架比较

从零开始大模型开发与微调：实战编码器：拼音汉字转化模型

大语言模型原理与工程实践：低秩适配

多任务学习MultiTask Learning原理与代码实例讲解

强化学习Reinforcement Learning与逆强化学习：理论与实践

强化学习Reinforcement Learning在智慧交通系统中的创新应用

一切皆是映射：DQN算法改进历程与关键技术点

支持向量机SVM原理与代码实例讲解

AI Agent: AI的下一个风口 对研究者和实践者的建议

大规模语言模型从理论到实践广义优势估计

大规模语言模型从理论到实践大语言模型的构建流程

【大模型应用开发动手做AI Agent】大模型就是Agent的大脑

李群与李代数基础：第6节纤维丛

大规模语言模型从理论到实践模型并行

AI Agent: AI的下一个风口对研究者和实践者的建议