AIMasterStar-CSDN博客

原创微软Florence-2：一统视觉基础模型

Florence-2作为视觉基础模型展示了强大的多功能性和有效性，可以转移到各种下游任务。

2024-07-15 21:32:16 144

原创 “AI教母”李飞飞和“AI教父”Hinton观点：关于LLM

1. “AI教母”李飞飞：LLM不存在主观知觉能力，多少亿参数都不行。2. “AI教父”Hinton：「预测下一个词」值得全力以赴

2024-06-06 20:10:41 88

原创 MiniCPM-V 2.5 技术调研

如果不采取任何优化，一张 448*448 分辨率图片编码通常需要 45s 处理时间。通过手机端编译优化、显存整理等一系列优化方式，MiniCPM-Llama3-V 2.5 将 CPU 编码延迟降低到了 5s 左右。对于高通芯片的小米14Pro，MiniCPM-Llama3-V 2.5 实现了多模态大模型端侧图像编码150 倍加速的显著提升（45s -> 0.3s）。

2024-06-05 22:39:39 524

原创 2023年AI大模型技术发展与展望

我们正处于AI大模型爆发的黄金时期，各大科技巨头纷纷加大在AI领域的投资，特别是在大语言模型和多模态大模型方向。美国投资界把AI大模型看成是一场工业革命级别的机会，如同80年代的PC，95年的互联网。通过AI大模型创新创造出来的增量市场，使得原本在存量市场难以解决的技术难题游刃而解。三星、小米、华为、荣耀等系统/手机厂商都在竞相布局AI大模型赛道，市场竞争与合作正在重新塑造业务链条和行业格局。

2024-04-08 15:44:59 123

原创从零学习Stable Diffusion

下面以Ubuntu20.4为例进行步骤介绍配置安装、文生图、图生图、寻找模型资源、提升绘画质量、Embeddings/LoRa/Hypernetworks、局部重绘、SD绘画插件、LoRA微调和ControlNet。

2023-06-14 16:43:38 232

原创从GLM-130B到ChatGLM，清华ChatGLM一作曾博士报告ppt

自8月起，GLM团队进一步向模型注入了文本和代码预训练，通过有监督微调等技术实现人类意图对齐，于23年2月开始内测 ChatGLM千亿对话模型，于3月开源ChatGLM-6B模型。报告将分享 GLM团队在千亿训练和ChatGLM研发过程的一点思考和尝试。曾奥涵：清华大学知识工程实验室一年级博士生，为开源双语预训练模型 GLM-130B 模型和 ChatGLM 系统的主要开发者之一，研究方向为自然语言处理与大规模预训练模型，指导老师为唐杰教授。

2023-06-06 14:22:30 1362

原创基于Docker环境部署/微调7B/13B Vicuna

下载pytorch，https://pytorch.org/，这里我们要先看一下cuda版本（nvcc --version）如果python版本为3.10，CUDA版本为11.8（下载地址：https://developer.nvidia.com/cuda-toolkit-archive，安装参考文献[3]），选择安装pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118。

2023-05-31 16:53:50 773

原创算法与语音对话方向面试题库

语音对话方向涉及到基本算法编程、机器学习数学基础、语音信号处理、自然语言处理、以及一些多模态深度学习内容。这里对相关面试题目和解答进行汇总（主要面向python语言）

2022-08-09 18:11:28 1098

原创 SereTOD2022 Track2代码剖析-面向半监督和强化学习的任务型对话系统挑战赛

SereTOD2022挑战赛是清华大学欧智坚老师团队和中移动冯俊兰老师一同举办的，附属在。该数据集面向真实业务场景，口语对话转录，复杂度极高，挑战赛公开的数据意义重大，基准代码的NLU基于BERT实现，NLG基于GPT2实现，有较好的学习价值。因此，我们在此详细剖析一下该挑战赛Track2的基准方法与实现代码。......

2022-07-30 17:30:37 221

原创 SereTOD2022 Track1代码剖析-面向半监督和强化学习的任务型对话系统挑战赛

SereTOD2022挑战赛是清华大学欧智坚老师团队和中移动冯俊兰老师一同举办的，附属在。该数据集面向真实业务场景，口语对话转录，复杂度极高，挑战赛公开的数据意义重大，基准代码的NLU基于BERT实现，NLG基于GPT2实现，有较好的学习价值。因此，我们在此详细剖析一下该挑战赛Track1的基准方法与实现代码。......

2022-07-25 18:34:19 371

转载【转载】对话动作集定义CUED Standard Dialogue Acts

文章目标希望从零开始构建自己对话数据的那种情况，对自己业务定义用户目标、动作集构建有引导作用。

2022-07-17 16:21:21 172

原创 BERT使用技巧汇总

convert_tokens_to_ids是将分词后的token转化为id序列，而encode包含了分词和token转id过程，即encode是一个更全的过程，另外，encode默认使用basic的分词工具，以及会在句子前和尾部添加特殊字符[CLS]和[SEP]，无需自己添加。回答basic_tokenizer是基本的分词，按照character进行分词，会剔除掉空格，而wordpiece_tokenizer认为用户已经分好词，并以空格分开，会对子词进一步拆分并添加“##”前缀符号。............

2022-07-16 12:08:54 2406

原创 SereTOD2022数据剖析-面向半监督和强化学习的任务型对话系统挑战赛

SereTOD2022挑战赛是清华大学欧智坚老师团队和中移动冯俊兰老师一同举办的，附属在EMNLP2022的面向半监督和强化学习的任务型对话系统研讨会。该数据集面向真实业务场景，口语对话转录，复杂度极高，挑战赛公开的数据意义重大，基准代码的NLU基于BERT实现，NLG基于GPT2实现，有较好的学习价值。因此，我们在此详细剖析一下该挑战赛的数据和代码。...

2022-07-12 16:00:20 392

原创重访马尔可夫生成式任务型对话 Revisiting Markovian Generative Architectures for Efficient Task-Oriented Dialog Sys

这项工作是清华大学欧智坚老师团队和中移动研究院冯俊兰老师团队合作的工作。基于马尔科夫生成框架在任务型对话数据集MultiWOZ2.1上获得了较好性能。整体来看，本文属于一篇讨论型论文，认为维护的对话状态和当前用户输入以上一轮的系统响应已经足以表征完整的对话历史，在生成模型训练和推断时不需要再将所有的对话历史全部输入，不仅带来计算和显存的巨大消耗，还容易引入冗余噪音。我们在这里详细介绍一下该工作的细节。......

2022-07-08 16:21:12 307

转载【句子互动转载】1. 对话系统趋势分析

本章我会带领大家了解对话系统的趋势，以及为什么我们要搭建一个对话系统。前Apple交互设计师是这样说的：“在未来的25年没有人会再点击下拉菜单，但是人们仍然会指着地图互相纠正对方说的话，这是最基本的。好的信息软件在处理信息的时候会更加贴近人类本来的方式，而不是电脑”。换句话说，未来的交互更多的是机器和电脑适应人，而不是人按照电脑的方式一步一步的操作完成任务。这是交互趋势的变化：从80年代以PC为主的交互方式，到90年代的互联网时代，再后来00年代的移动互联网时代，以及现在10年代的人工智能时代，我们会发现，

2022-06-16 11:31:20 254

原创 Facebook的对话预训练模型Blender Recipes for building an open-domain chatbot

Blender是Facebook人工智能研究（FAIR）开源的英文对话预训练模型，论文发表在2021年的EACL，该工作提供了90M，2.7B和9.4B参数训练的不同体系结构供大家使用，能够方便地构建对话系统。Blender在对话生成方面表现的非常卓越，能够在几乎任何主题上进行各种各样的对话，同时展现出类似人的特征，例如同理心和个性化。因而我们在这里详细介绍一下该工作的细节。......

2022-06-08 18:54:17 448

原创基于人机交互的忧虑分析访谈预料库 The Distress Analysis Interview Corpus of human and computer interviews

DAIC，全称为Distress Analysis Interview Corpus，基于人机交互采集了进行忧虑分析的访谈预料库，是由南加州大学创新技术研究所创建的。其中使用比较广泛的数据集是DAIC-WOZ，WOZ全称为Wizard-of-Oz，中文译名为绿野仙踪，又叫做奥兹国奇遇记，在任务型对话中常常做为一个对话范式，即由一个人控制智能体参与对话（被称作Wizard），另一个人直接参与对话。以此来模拟人机对话场景，使人适应与机器交流的场景。WOZ的梗源自绿野仙踪。

2022-06-01 10:19:01 419

原创基于层次化强化学习的任务型对话诊断系统 Task-oriented Dialogue System for Automatic Disease Diagnosis via HRL

复旦大学的这篇工作继续延续了NIPS RL workshop 2016上的神经症状检查器的想法，并借鉴AAAI2018的工作[15]，将层次化强化学习引入到对话诊断系统中。该工作比较大的贡献依然是公开了数据集和源代码，但是创新性上尚有改善空间，另外就是诊断性能的问题了，从表3和表4的结果可以看到，本文方法与基于隐性症状和显性症状的SVM模型依然存在显著的性能差距。本文于2020年放到ArXiv上后投稿多次，近期又遭ICLR2022拒稿。该工作的具体实现方法我们在下文中对该工作进行详细介绍。

2022-05-21 11:03:54 1265

原创基于任务型对话的医疗诊断 Task-oriented Dialogue System for Automatic Diagnosis

这项基于任务型对话的自动医疗诊断工作来自复旦大学黄萱菁团队，发表在ACL Short 2018。初步看该工作和NIPS RL workshop 2016上的神经症状检查器的工作思路是相似的，将AI智能体跟患者多轮问诊的症状获取过程看成马尔可夫序列决策过程，然后基于强化学习算法进行训练。该工作的贡献包括：1. 标注了第一个面向对话系统的医疗数据集；2. 提出了一个基于强化学习的医学对话系统框架。3. 公开了实现代码和数据。但是，该工作也存在较多待完善之处。如何设计好的诊断系统依然任重道远。

2022-05-12 12:53:08 617

原创基于强化学习的医疗诊断 Inquire and Diagnose: Neural Symptom Checking Ensemble using Deep Reinforcement Learning

将强化学习应用于医疗诊断的早期工作是发表在2016年人工智能领域顶级会议NIPS深度强化学习研讨会上的一篇工作，后续大部分基于强化学习进行医疗问诊的工作均基于该工作展开。其基本思想是将辅助诊断的问诊过程看成一个序列决策过程，每次只能向患者询问一个症状，然后根据当前搜集的症状进行诊断。整个问诊过程基于强化学习进行训练，依据诊断结果设定奖惩信号，并对问诊轮数进行惩罚。完成了基于强化学习的问诊与诊断模型训练过程。该工作将基于神经网络多轮交互的问诊与诊断模型称之为神经症状检查器，其具体方法我们在文中进行详细介绍

2022-05-06 21:11:53 1742

AIMasterStar的博客