小小何先生-CSDN博客

原创【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者提出了chain of thought的一系列prompt方法来进行改进，在不调整模型参数的情况下，在多个任务中取得了SOTA的成绩。

2023-05-12 01:25:36 1108 1

原创斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

不用的模型之前的差异化收费也不一样，比如ChatGPT 10M的token需要30美金，但是如果是调用GPT-J的话，只需要0.2美金。当然还有一些问题是LLM商业化应用的共性问题，安全，隐私，伦理，不确定性等等。如何将相似的问题存起来，减少模型的调用？如果大语言模型的调用很贵，那么一个简单的想法就是去近似这个大语言模型。LLM的调用开销与query的大小呈线性递增，因此减小prompt的长度就是一个可以去减少开销的点。LLM的多样性同时会使得最终的性能有所提升，贵的LLM APIs也不一定见地好。

2023-05-10 14:26:15 2633

原创 Mac M1 报错 ld: library not found for -lSystem

【代码】Mac M1 报错 ld: library not found for -lSystem。

2023-05-01 18:09:01 1315

原创【CAMEL】Communicative Agents for “Mind”Exploration of Large Scale Language Model Society

目前的语言模型还是需要人类的输入来进行指导对话，在时间开销上会很大。也就是只在开始人为给定prompt，之后就全靠智能体自己去对话探索了。更多的是去抓住模型中的知识，而作者所提出来的方法，是去处理对话智能体“思想”上的探索。目前多智能体间的通信也是研究的一个热点问题，但是主流的通信是基于一些只有智能体才能看懂的向量。实现智能体间的通信？人话来说就是，目前主流的基于大模型的应用都是人肉去调prompt，这个非常耗费开销。作者提出了一种方法，让智能体之间进行对话，进而自动去完成任务，而过程中无需人为干预。

2023-04-30 11:56:36 486

原创偏好强化学习概述

偏好强化学习想要去解决一个问题，首先需要去寻找的就是优化目标。在强化学习里面的优化目标就是奖励函数，因此想要待解决的问题用强化学习方法来求解，就需要将优化目标与奖励函数挂钩。而基于专家经验设计的奖励函数通常会面临四个问题：1. Reward Hacking: 只管最大化奖励分数，不考虑实际情况。2. Reward Shaping: 平衡goal definition和guidance task。3. Infinite Rewards: 存在一些case，是坚决不允许发生的。

2023-04-22 17:20:34 2084

原创【HuggingGPT】Solving AI Tasks with ChatGPT and its Friends in Hugging Face

当前的语言模型Large Language Models (LLMs)缺乏处理复杂信息的能力，像视觉，语音这类信息就不能够很好的处理，这是一个语言模型能力缺陷上的问题。这样的方法带来的问题就是，如果管理的AI模型比较多的话，需要好好设计prompt，尤其是AI模型的描述，就是这个AI模型到底能做什么样的事情。具体来说，就是来了一个用户的请求request，然后基于一些提前写好的prompt，HuggingGPT选择要采用哪个模型来去解决子任务，然后基于执行的结果做出响应。期望是具备二者的通用能力。

2023-04-22 17:18:57 1809

原创分布式框架ray的基本使用记录

分布式框架ray的基本使用

2022-12-22 17:18:51 653

原创解决ValueError: Unsupported ONNX opset version: 16问题

解决ONNX模型报错opset version：16的问题。

2022-12-14 10:37:54 3537

原创安装haiku报错

解决haiku安装不了的问题。

2022-12-10 12:54:09 948

原创【AlphaHoldem】端到端强化学习玩德州扑克

强化学习端到端玩德州扑克。

2022-09-14 23:21:16 2373 2

原创【DouZero】强化学习+self play达到人类玩家斗地主水平。

强化学习玩斗地主

2022-09-10 11:49:26 3667

原创基于Flask创建Python服务端，并调用Java客户端

Python与Java间的数据通信。

2022-08-15 22:49:11 1251

原创基于Flask创建Python服务端，并调用JavaScript客户端

Javascript与Python端通信

2022-08-02 20:58:46 872

原创【五分钟Paper】基于参数化动作空间的强化学习

参数化动作空间Q-PAMDP算法。

2022-07-23 23:33:31 1101

原创基于Flask创建Python服务端，并调用Python客户端、C#客户端

创建Python的服务端，并用C#客户端和Python客户端分别调用。

2022-07-23 16:59:20 803

原创【5分钟Paper】Pointer Network指针网络

Pointer Network网络框架核心理解。

2022-07-18 01:26:14 792

原创基于模型的多智能体强化学习中的模型学习理解

文章目录多个智能体整体联合学习智能体分开学习环境模型HPPAORPO环境模型需要学习两个函数：状态转移函数，和奖励函数。多个智能体整体联合学习若采用centralized world model进行环境模型的学习，此时环境模型需要在给定联合的观测Ot={oti}i=1n\mathbf{O_{t}}=\{o_{t}^{i}\}_{i=1}^{n}Ot={oti}i=1n，和给定联合的动作空间下at={ati}i=1n\mathbf{a_{t}}=\{a_{t}^{i}\}_{i=1}^{n}at

2022-05-28 22:17:32 651 1

原创 OpenAI对强化学习环境的汇总

你想要的都有

2022-03-19 17:08:38 11163

原创 Mac M1安装ffmpeg报错DependencyNotInstalled: Found neither the ffmpeg nor avconv executables.

Mac M1下安装ffmpeg

2022-02-11 16:37:24 922

原创 PyTorch中的梯度微分机制

详细介绍PyTorch中的梯度微分机制

2022-01-18 13:57:11 1386

原创系统类配置(六) ubuntu16.04命令行安装Nvidia显卡驱动（操作指令详细注释版）

ubuntu16.04命令行安装Nvidia显卡驱动

2021-06-30 09:52:18 679

原创 Mac下安装atari_py报错Exception: ROM is missing for pong

报错报错提示如下：Exception: ROM is missing for pong, see https://github.com/openai/atari-py#roms for instructions解决依据提示去https://github.com/openai/atari-py#roms这个链接下面找解决办法。下载Roms.rar，然后解压执行：python -m atari_py.import_roms <path to folder> 我这里一开始运行

2021-06-12 11:42:54 3166

原创多智能体强化学习(二) MAPPO算法详解

文章目录PPO实战技巧(未写完)MAPPO算法伪代码详解MAPPO实战技巧参考 MAPPO论文全称为：The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games 官方开源代码为：https://github.com/marlbenchmark/on-policy 这篇文章更多的提出的是一些工程上的trick，并且有较详细对比协作式多智能体的一些文章。多智能体强化学习算法大致上可以分为两类，中心式和分散式。中

2021-05-26 18:37:27 23638 35

原创多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解

文章目录独立Q学习值分解网络QMIX思考参考 QMIX论文全称为：QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning 一个完全合作式的多智能体任务(我们有n个智能体，这n个智能体需要相互配合以获取最大奖励)可以描述为去中心化的部分可观测马尔可夫决策模型(Dec-POMDP)，通常用一个元组GGG来表示：G=⟨S,U,P,r,Z,O,n,γ⟩G=\langle S, U, P

2021-05-25 21:05:24 12620 7

原创强化学习实战(九) Linux下配置星际争霸Ⅱ环境

文章目录安装SMAC安装StarCraft II下载SMAC地图参考安装SMAC SMAC是基于暴雪公司星际争霸Ⅱ做的一个多智能体环境，官方GitHub链接为：https://github.com/oxwhirl/smac。安装之前更新一下pip(不更新的话会报一个错误)：ERROR: Command errored out with exit status 128: git clone -q https://github.com/oxwhirl/smac.git /tmp/pip-req-b

2021-05-25 09:45:20 6536 8

原创【RLchina第六讲】Imitation Learning

文章目录Imitation LearningBehavior cloningApprentice LearningGenerative Adversarial Imitation Learning 本文与原视频部分内容有些出入，我觉得应该是老师讲错了。。。。不喜勿喷！监督学习的优化目标可以写成如下形式：θ∗=arg⁡min⁡θ∑i∥f(xi∣θ)−yi∥+∥θ∥\theta^{*}=\arg \min _{\theta} \sum_{i}\left\|f\left(x_{i} \mid \the

2021-05-04 20:15:58 471

原创【RLchina第五讲】Control as Inference

文章目录概率图基础强化学习与概率图的连接最大熵强化学习和变分推断Soft Q-LearningSoft Actor-Critic概率图基础概率图模型就是用图的结构来表示多个随机变量的联合概率分布(joint probability distribution)，上图是一个有向图模型，箭头表示变量之间的相互依存关系。有向图模型的联合概率分布可以表示为父节点条件下的条件概率乘积 p(x)=∏k=1Kp(xk∣pak)p(\mathbf{x})=\prod_{k=1}^{K} p\left(x_{k

2021-02-24 21:53:42 821 2

原创【RLchina第四讲】Model-Based Reinforcement Learning

文章目录Model-Based Reinforcement learningModel-Free RL V.S. Model-Based RLModel-Based RL：Blackbox and WhiteboxIntroduction to MBRL from DynaShooting methods：RS，PETS，POPLINRandom Shooting(RS)PETS：Probabilistic Ensembles with Trajectory SamplingPOPLINTheoretic

2021-02-23 11:23:42 2659

翻译强化学习实战(六)【Windows安装星际争霸Ⅱ 强化学习环境教程】

1.安装cuda、cudnn、tensorflow-gpu。可以参考文章。2.下载安装星际争霸。可以自行百度一下怎么安装。并添加系统变量或者去E:\install\anaconda\envs\starcraft\Lib\site-packages\pysc2\run_configs\platforms.py这个文件下面看看改改相关参数：可参考博客。添加完了系统变量之后需...

2021-01-25 19:49:57 4972 2

原创【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

文章目录所解决的问题？背景所采用的方法？取得的效果？所出版信息？作者信息？论文题目：Dream to Control：Learning Behaviors by Latent Imagination所解决的问题？先学一个环境模型，所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了，作者提出了一种方法，dreamer，在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。背景强化学习是需要学习环境的表征的，或者称之为对于环境的理

2021-01-25 19:40:44 797

原创解读【ICLR2020】多伦多大学：基于策略网络的探索模型规划

文章目录所解决的问题？背景所采用的方法？取得的效果？所出版信息？作者信息？论文题目：Exploring Model-based Planning with Policy Networks所解决的问题？背景所采用的方法？网络结构代码实现取得的效果？所出版信息？作者信息？...

2021-01-25 15:12:00 475

原创【ICLR2020】基于模型的强化学习算法玩Atari【附代码】

论文题目：Model Based Reinforcement Learning for Atari所解决的问题？ model-free的强化学习算法已经在Atari游戏上取得了巨大成功，但是与人类选手相比，model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律，从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的...

2021-01-24 20:15:09 2644

原创 PETS：伯克利大神Sergey Levine指导的概率集成轨迹采样算法

文章目录所解决的问题？背景所采用的方法？大体思路具体方法代码实现论文题目：Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models所解决的问题？基于模型的强化学习算法由于要使用一个深度神经网络去学习一个环境model，而纯神经网络这种大参数的近似函数求解会带来很多缺陷，比如说计算开销，对于环境的不确定性无法很好的表征，由于参数量比较大，其求解相对来说也并不会很容易。作者通过

2021-01-24 16:20:58 1742 2

原创解读：AlphaGo之父倾力打造：The Predictron端到端训练与规划

文章目录所解决的问题？背景所采用的方法？取得的效果？所出版信息？作者信息？论文题目：The Predictron: End-To-End Learning and Planning所解决的问题？提出predictron结构，一种abstract model来表示马尔可夫奖励过程。端到端直接训练，相对来说能够省去一些没有必要的计算开销。但同时也损失了一些可解释性。背景基于模型的强化学习主要的思想聚焦于两个问题：1. 学习模型。2. 基于这个所学的模型进行规划。模型可以表示为MRP或者MD

2021-01-21 13:43:10 458

原创【Nature论文浅析】基于模型的AlphaGo Zero

文章目录所解决的问题？背景所采用的方法？取得的效果？所出版信息？作者信息？论文题目：Mastering Atari, Go, chess and shogi by planning with a learned model所解决的问题？规划planning一直都是人工智能研究领域中，人们追逐的一个比较难的研究点，基于树的规划算法，像AlphaGo这类算法已经取得了巨大的成功，然而基于树模型的规划算法需要一个完美的环境模型，这个条件在真实的世界中是很难被满足的。背景基于模型的强化学习方法

2020-12-31 15:40:24 551

原创 C++并发与多线程(二) 创建多个线程、数据共享问题分析、案例代码

文章目录文件系统概念文件定义文件的分类文件系统文件结构文件的存取方法文件物理结构FAT文件系统文件存储和目录存储空间的管理文件目录管理文件系统概念文件定义文件是计算机信息存取的一种重要组织形式。文件可以存放信息。计算机中除了文件，还有哪些信息存放方式？或者说用户的信息还可以存放其他哪些地方？正确答案：寄存器，内存，数据库，注册表，… 文件由若干个信息项有序构成，信息项可以是字节，可以是结构化数据。用户通过读写指针来存取文件的信息项。文件具有文件名。用户通过文件名存取文件。文件的

2020-12-30 15:04:10 358

原创 C++并发与多线程(一)线程传参

文章目录设备管理概念Spooling系统Linux模块机制Linux驱动程序Windows驱动程序设备管理概念首先对外设进行分类，分类的标准有很多：按交互对象分类人机交互设备：显示设备、键盘、鼠标、打印机.与CPU等交互的设备：磁盘、磁带.传感器、控制器计算机间的通信设备：网卡,调制解调器按交互方向分类输入设备：键盘、扫描仪输出设备：显示设备、打印机.双向设备：输入/输出:硬盘、软盘、网卡按外设特性分类使用特征：存储、输入/输出数据传输率：低速(如键盘). .中速(

2020-12-30 15:04:00 397

原创操作系统原理(七)文件系统

文章目录内存管理物理内存管理分区内存管理分区放置策略内存覆盖技术内存交换技术内存碎片虚拟内存管理Intel CPU与Linux内存管理操作系统区别于系统软件，最大的两个区别：一个是进程管理，一个是存储管理。内存管理用户对存储器功能的需求主要有：容量足够大；速度足够快；信息永久保存；多道程序并行。但是多道程序并行也会带来一些问题，比如如何实现共享代码和数据，节省内存。不允许内存中的程序相互间非法访问。当内存太小不够用时，用辅存来支援内存。暂时不运行的模块换出到辅存上，必要时再换入内

2020-12-30 15:03:50 361

原创操作系统原理(六)设备管理

文章目录进程调度概念操作系统以时间片为单位管理CPU。进程调度概念

2020-12-30 15:03:42 320

原创操作系统原理(五)存储管理

文章目录死锁概念死锁的必要条件死锁概念用P-V操作实现上述功能伪代码：五个哲学家都取到了左手边的筷子，都在等待右手边的筷子的时候就进入了死锁。每个哲学家都无限期地等待邻座放下筷子! 而邻座没有吃完之前不会放下筷子!而邻座缺- -只筷子永远都无法吃完!死锁的定义：两个或多个进程无限期地等待永远不会发生的条件的一种系统状态。在两个或多个进程中,每个进程都持有某种资源,但又继续申请其它进程已持有的某种资源。此时每个进程都拥有其运行所需的一部分资源，但是又都不够,从而每个进程都不

2020-12-30 15:03:32 378 2

基于Verilog语言的FPGA交通灯设计.zip

FPGA交通灯课程设计，基于Verilog程序语言。包含课程任务书、源代码程序、对应PPT、实验结果的视频讲解。可查看相应的文章详解：https://zhiqianghe.blog.csdn.net/article/details/107022548。

2020-06-29

A股-行业-市值排名python排序.zip

包含一个A股公司与市值的execle表格，python程序对这些公司进行排序。pd.read_excel读取execle数据，之后对每个行业分开处理，找到当前查找这个行业的所有公司，依据市值排序，取出前4名公司。

2020-06-24

莫烦强化学习部分算法代码解析.pdf

莫烦课程强化学习部分的代码解析，从q-learning算法到ddpg算法，整体代码的思路流程，还有关键部分的详细解释，配套公式详解。

2020-06-14

Machine Learning-李宏毅.docx

李宏毅机器学习课程笔记，非常详细，从回归到梯度上升，分类，反向传播，卷积神经网络，半监督，无监督，线性模型等。

2020-06-14

元策略优化的MBRL算法.pptx

基于元策略优化的MBRL(大数据科学课堂报告)，配套的演讲词为：https://blog.csdn.net/weixin_39059031/article/details/106050195

2020-05-17

数学建模优质资料.zip

20多种建模算法大全，详细解释了各种算法，为你建模保驾护航，9篇关于美赛建模的讲义，手把手教你建模，灵敏度分析，让你模型胜别人一筹，资料关于美赛建模的word模板，全套服务。

2020-03-11

17国赛论文.rar

17年国赛论文及部分参考解题思路答案。含有：全国大学生数学建模竞赛论文格式规范（全国大学生数学建模竞赛组委会，2017年修订稿）

2020-03-11

算法适用类型.doc

数学建模各个算法的适用对象，有：1.灰色神经网络、禁忌算法、遗传算法、模拟退火、粒子群优化算法、神经网络模型、支持向量机、多元分析、聚类分析、主成分分析。

2020-03-11

数学建模思想方法大全及方法适用范围(主讲人厚积薄发-数学中国版主).pdf

数学中国国赛专题培训《数学建模思想方法大全及使用范围》。详细讲解了建模的思想、方法。是一本很好的学习培训资料。

2020-03-11

mcm2018blanguages.zip

2018年数学建模美赛MCM B题的五篇O奖论文，“建立语言使用人数的分布模型”“根据模型预测50年后的使用top10”“预测50年后各语言的地理分布”三个问题。

2020-03-11

研究生学术综合英语1-6课课文及翻译.pdf

东北大学学术综合英语1-6课文及翻译：1.Presenting a speech ；Unit 2 Energy in Transition ；Do Traffic Tickets Save Lives；His Politeness Is Her Powerlessness ；The Long War Against Corruption ；From Kaifeng to New York － Glory Is as Ephemeral as

2020-03-03