自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LLM学堂

讨论跟大语言模型相关的技术

  • 博客(38)
  • 收藏
  • 关注

原创 理解大语言模型(二)——从零开始实现GPT-2

详细讲解如何从零开始实现GPT

2024-05-20 10:13:31 1489 2

原创 利用神经网络学习语言(四)——深度循环神经网络

循环神经网络虽然能很好地进行自然语言处理。但是高效的代码实现是成功的关键,否则模型的训练效率太低,在实际中就没什么作用了。本文将讨论如何高效地实现深度循环神经网络

2024-05-17 10:17:09 1331 4

原创 神经网络的工程基础(三)——更优化的最优化算法

最优化算法

2024-05-24 12:20:56 397 4

原创 大语言模型是通用人工智能的实现路径吗?【文末有福利】

考虑到像ChatGPT这样的大语言模型代表了自然语言处理的最新成果,因此,一个更具体的学习方法是从零开始理解并构建ChatGPT。接下来,我们来看看实现这一目标所需的知识体系,如下图所示。图1在结构层面上,大语言模型的核心要素是注意力机制和深度学习优化技术。注意力机制源于循环神经网络的发展。为了深刻理解循环神经网络,必须先了解神经网络的基础模型——多层感知器。多层感知器的基础可以进一步分为3个部分:首先是作为模型骨架的线性回归;其次是作为模型灵魂的激活函数,激活函数演进自逻辑回归;

2024-05-24 12:15:00 1593 7

原创 神经网络的工程基础(二)——随机梯度下降法|文末送书

本文将讨论利用PyTorch实现随机梯度下降法的细节。

2024-05-23 11:02:52 1838 15

原创 在人工智能时代,软件工程师如何避免失业?|文末送书

本次送书数量不少于3本,【阅读量越多,送得越多】活动结束后,会私信中奖粉丝,请各位注意查看私信哦~活动截止时间:2024-05-24 24:00:00。

2024-05-23 08:25:50 823 2

原创 神经网络的工程基础(零)——PyTorch基础

本文将介绍PyTorch的基础。它是神经网络领域常用的建模工具。

2024-05-22 11:38:46 712 2

原创 神经网络的工程基础(一)——利用PyTorch实现梯度下降法

本文将讨论利用PyTorch实现梯度下降法的细节。这是神经网络模型的共同工程基础。

2024-05-22 11:07:38 815

原创 大语言模型的工程技巧(四)——梯度检查点

本文将讨论如何利用梯度检查点算法来减少模型在训练时候(更准确地说是运行反向传播算法时)的内存开支。这在训练超大规模的模型时会用到。

2024-05-21 19:00:00 1037

原创 大语言模型的工程技巧(三)——分布式计算

神经网络的分布式计算

2024-05-21 11:59:06 1561 1

原创 人工智能是“数字鹦鹉”还是有了自我意识?

人工智能的自我意识?

2024-05-21 09:31:29 1090 7

原创 大语言模型的工程技巧(二)——混合精度训练

如何实现混合精度训练

2024-05-20 18:28:42 1170

原创 大语言模型的工程技巧(一)——GPU计算

如何实现GPU计算

2024-05-20 10:29:49 1394

原创 德布罗意小传

对于这一颠覆性的宇宙观,连爱因斯坦都一时无法接受,并反驳道“上帝不会掷骰子”。物理学家根据这一理论,利用概率来描述微观世界(比如电子),并得到了令人信服的验证结果,从而开启了量子力学的新纪元。同样地,大语言模型运用概率来描述语言及其中蕴含的知识,在人工智能发展中取得了令人瞩目的成果。路易·维克多·德布罗意(Louis Victor de Broglie,1892—1987),法国物理学家,开创了人类认知世界的新篇章。这一先知般的论断表明宇宙的本质包含一种根本的随机性,世间的一切都是以概率的形式存在的。

2024-05-19 13:33:32 133

原创 理解大语言模型(一)——什么是注意力机制

大语言的核心设计是注意力机制。本文将重点讨论这个设计的细节和实现

2024-05-19 13:29:04 1248 1

原创 伯特兰·罗素小传

伯特兰·亚瑟·威廉·罗素(Bertrand Arthur William Russell,1872—1970),著名的英国哲学家。在这一探索过程中,他提出了著名的“罗素悖论”,几乎凭一己之力动摇了整个数学的基础,引发了第三次数学危机。这次危机虽然并未直接影响人们对数学的实际运用,却迫使人们重新思考什么是真正的数学。在城堡的地下室生活着一群蜘蛛,突然一阵大风吹散了它们辛辛苦苦编织的一张错综复杂的蛛网,于是它们慌乱地对蛛网加以修补,因为它们认为,正是蛛网支撑着整个城堡。

2024-05-18 11:01:38 164

原创 利用神经网络学习语言(六)——总结与常见面试问题

总结与面试

2024-05-18 10:53:02 1054 1

原创 利用神经网络学习语言(五)——长短期记忆网络(LSTM)

LSTM是很经典的循环神经网络,在实际当中的应用也很多。本文将从零开始实现LSTM,并使用它来学习Python代码。通过重新实现能更好地讨论模型细节

2024-05-17 12:01:26 1000

原创 利用神经网络学习语言(三)——循环神经网络(RNN)

循环神经网络是大语言模型的基础。或者更准确地说,大语言模型是循环神经网络的一个变种。因此,深入理解循环神经网络能帮助我们更好地理解大语言模型的细节

2024-05-16 18:55:09 1125

原创 利用神经网络学习语言(二)——利用多层感知器(MLP)学习语言

本文介绍了如何利用MLP来自动生成Python代码,从而为后续讨论循环神经网络做好准备

2024-05-16 15:47:57 701

原创 利用神经网络学习语言(一)——自然语言处理的基本要素

自然语言处理是人工智能领域中至关重要的任务。本文详细讨论了自然语言处理的基本要素,包括:学习框架、语言数字化、分词器的语言基础、英文分词器、中文分词的挑战等。

2024-05-16 12:09:15 961 2

原创 神经网络(四):应用示例之分类

文章目录一、 传统分类模型的局限二、 神经网络的优势三、 代码实现([完整的代码请见](https://github.com/GenTang/intro_ds/blob/feature_pep_8/ch12-ann/mlp.py))程序清单1 定义神经网络的结构程序清单2 定义神经网络的结构程序清单3 训练模型程序清单4 对未知数据做预测四、广告时间一、 传统分类模型的局限在之前的文章中(《神...

2018-11-10 12:25:19 3290

原创 神经网络(三):神经网络

文章目录一、 神经元到神经网络二、 图形表示三、 数学基础四、广告时间一、 神经元到神经网络在之前的文章中(《神经网络(一)》和《神经网络(二)》),我们讨论了如何为神经元搭建模型。虽然搭建模型的过程并不复杂,但得到的神经元模型也没有太多的新意,比如使用sigmoid函数作为激活函数,则得到的神经元模型就是逻辑回归。在人体中,单个神经元能做的事情非常有限,但多个神经元相互交织在一起就组成了人...

2018-10-04 11:41:30 868

原创 神经网络(二):Softmax函数与多元逻辑回归

文章目录一、 Softmax函数与多元逻辑回归二、广告时间一、 Softmax函数与多元逻辑回归为了之后更深入地讨论神经网络,本节将介绍在这个领域里很重要的softmax函数,它常被用来定义神经网络的损失函数(针对分类问题)。根据机器学习的理论,二元逻辑回归的模型公式可以写为如下的形式:(1)P(y=1)=11+e−XWT+bP(y = 1) = \frac{1}{1 + e^{-XW^T...

2018-10-01 14:20:52 2065

原创 神经网络(一):神经元模型与逻辑回归

文章目录一、仿生学二、神经元三、Sigmoid神经元与二元逻辑回归一、仿生学在经典的机器学习领域,有很多不同类型的模型,它们大致可以分为两类:一类是比较注重模型可解释性的传统统计模型,比如线性回归和逻辑回归;另一类是侧重于从结构上“模仿”数据的机器学习模型,比如监督式学习SVM和非监督式学习KMeans。这些模型虽然在结构和形态上千差万别,但它们有一个共同的建模理念,就是首先对数据做假设,然...

2018-09-28 16:58:21 9939 4

原创 生成式模型(零):条件概率

文章目录一、 生成式模型二、 概率:量化随机三、 定义概率:事件和概率空间四、 条件概率:信息的价值一、 生成式模型这个系列将讨论人工智能领域非常重要、也十分被看好的一类模型:生成式模型(generative model)。因为这类模型不但能根据特征预测结果,还能“理解”数据是如何产生的,并以此为基础“创造”数据,这才是“真正意义上”的人工智能。而且正如费曼[]所说的“What I canno...

2018-09-22 21:03:06 1401

原创 生成式模型(一):蒙提霍尔问题与贝叶斯定理

一、 生成式模型这个系列将讨论人工智能领域非常重要、也十分被看好的一类模型:生成式模型(generative model)。因为这类模型不但能根据特征预测结果,还能“理解”数据是如何产生的,并以此为基础“创造”数据,这才是“真正意义上”的人工智能。而且正如费曼[]所说的“What I cannot create, I do not understand(我不能创造的东西,我就不了解)”,生成式模...

2018-09-20 22:55:24 2502 2

原创 非平衡数据集与准确度悖论

分类问题是机器学习的研究重点,而后者在实践中常常碰到非均衡数据集这个难题。非均衡数据集(imbalanced data)又称为非平衡数据集,指的是针对分类问题,数据集中各个类别所占比例并不平均。比如在网络广告行业,需要对用户是否点击网页上的广告进行建模。为了处理方便,我们记“点击广告”为类别1,“不点击广告”为类别0。因此这是一个二元分类问题。在训练模型的历史数据里有1000个数据点(1000...

2018-09-15 08:52:51 790 1

原创 精通数据科学的奥义:腰椎间盘突出防治

每个数据工作者都需要一本从入门到腰椎间盘突出的参考书。或者再牛逼的技术也需要防治腰椎间盘突出。一、什么是腰椎间盘突出?首先看图说话,不专业的定义,腰椎间盘突出就是脊椎与脊椎之间的椎间盘变形了、膨胀了、过线了、碰到了不该触碰的东西。腰椎间盘突出有什么危害呢?四个字形容:痛不欲生,生不如死(不好意思,多打了四个字)。在发病期间,基本上就是卧床休息,翻身都很困难,特别是嘘嘘的时候...

2018-09-15 08:07:14 452

原创 中国数学教育的一些反思

虽然,我对数学不怎么懂,但我一直对好的数学教育颇感兴趣,曾经也作为数学学人接受过好几年的数学专业训练,这其中包括国内的,也包括我个人认为全世界最好的法国数学教育。所以一直有念头想把相关的思考写下来,也算是对自己未竟的数学梦的一个交代吧。其实,我的反思的结果非常简单,总结起来就一句话: 中国的数学教育缺乏“工程思想”,没有工程师的文化。为什么这么说呢?这里,让我们稍稍偏题一下,先来...

2018-09-13 22:16:27 757

原创 分类模型的评估(三)

在前两篇文章里(《分类模型的评估(一)》和《分类模型的评估(二)》),针对二分类问题,我们分别讨论了评估某个给定分类结果的指标:查准率(Precision)、查全率(Recall)以及F-score综合评估分类模型整体效果的指标:ROC曲线-AUC值这篇文章将借助一个具体的例子来讨论上述指标的代码实现(使用Python)一、什么是PythonPython是一门计算机编程语言,...

2018-09-13 20:43:16 612

原创 分类模型的评估(二)

在上一篇文章里(《分类模型的评估(一)》),我们讨论了针对某一给定分类结果的评估指标,也就是查准率(Precision)、查全率(Recall)以及综合两者的F-score。遗憾的是,这些指标并不能很好地评估一个二分类模型的效果,因为在人工智能领域,绝大多数模型都能产生好多份分类结果。关于这一点,可以将模型想象成一个吃鸡游戏的职业玩家,一个玩家可以玩很多局吃鸡比赛。那么对于每一局吃鸡游戏的结果...

2018-09-12 22:13:15 1058

原创 分类模型的评估(一)

针对二元分类结果,常用的评估指标有如下三个:查准率(Precision)、查全率(Recall)以及F-score。这篇文章将讨论这些指标的含义、设计初衷以及局限性。一、二元分类问题在机器学习领域,我们常常会碰到二元分类问题。这是因为在现实中,我们常常面对一些二元选择,比如在休息时,决定是否一把吃鸡游戏。不仅如此,很多事情的结果也是二元的,比如向妹子表白时,是否被发好人卡。当然,在...

2018-09-10 23:30:33 8887

原创 量化投资的利器:隐马尔可夫模型(三)

之前几篇有关HMM模型的文章(隐马尔可夫模型(一) ,隐马尔可夫模型(二) )主要讨论了这个模型的理论部分,从这篇文章开始,我们从实际的应用场景入手,看看应该如何使用HMM模型以及它的代码实现。与传统的机器学习模型分为界限明确的监督式学习和非监督式学习不同,HMM可以处理这两种场景的问题(这其实是所谓生成式模型的优点)。而这篇文章将先讨论监督式的场景。 一、中文分词:监督式学习 在对中...

2018-09-09 14:36:17 8298

原创 量化投资的利器:隐马尔可夫模型(二)

在之前的文章(《量化投资的利器:隐马尔可夫模型(一)》)里,我们比较“文学地”介绍了隐马尔可夫模型(HMM)的基本思想。而这篇文章将深入地从数学上来讨论HMM模型的细节。一、马尔可夫链首先讨论在处理序列数据时最常用的数学工具—马尔可夫链1(Markov chain或者Markov process)。马尔可夫链描述的是一个随机过程(stochastic process),比如《量化投...

2018-09-09 10:31:19 8819 1

原创 数据科学中的陷阱II:定性变量的处理

在之前的文章里《数据科学中的陷阱I:变量的数学运算合理吗?》,我们讨论过定性变量,也就是表示类别的变量,比如性别、省份等。对于这类变量,不能在模型里直接使用它们,因为定性变量之间的数学计算是毫无意义的。另一方面,定性变量是一类很常见的变量,通常带着很有价值的信息。因此,这篇文章就将讨论如何正确地在模型里使用定性变量。对于定性变量,常见的处理方法有两种:一种是将定性变量转换为多个虚拟变量,另一种...

2018-09-08 21:46:53 11909

原创 数据科学中的陷阱I:变量的数学运算合理吗?

数据科学中有各种各样的模型,有的听起来很简单,比如线性回归;有的呢,听起来就很吓人,比如深度学习。但是不管什么样的模型,从本质上来讲,模型都是对训练数据做数学运算,并以此求得模型参数的估计值。所以我们需要保证两点:第一,训练数据能进行数学运算第二,对变量所做的数学运算是合理的对于第一点,通常只在一些特定的应用场景里才需要比较复杂的处理,比如自然语言处理、图像识别等。但对于第二点,几乎...

2018-09-08 21:13:56 6334

原创 数据科学目标、挑战以及门派

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-09-08 20:43:11 6484

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除