数据科学
文章平均质量分 79
tgbaggio1
《解构大语言模型:从线性回归到通用人工智能》、《精通数据科学》作者
数据科学家
展开
-
德布罗意小传
对于这一颠覆性的宇宙观,连爱因斯坦都一时无法接受,并反驳道“上帝不会掷骰子”。物理学家根据这一理论,利用概率来描述微观世界(比如电子),并得到了令人信服的验证结果,从而开启了量子力学的新纪元。同样地,大语言模型运用概率来描述语言及其中蕴含的知识,在人工智能发展中取得了令人瞩目的成果。路易·维克多·德布罗意(Louis Victor de Broglie,1892—1987),法国物理学家,开创了人类认知世界的新篇章。这一先知般的论断表明宇宙的本质包含一种根本的随机性,世间的一切都是以概率的形式存在的。原创 2024-05-19 13:33:32 · 188 阅读 · 0 评论 -
伯特兰·罗素小传
伯特兰·亚瑟·威廉·罗素(Bertrand Arthur William Russell,1872—1970),著名的英国哲学家。在这一探索过程中,他提出了著名的“罗素悖论”,几乎凭一己之力动摇了整个数学的基础,引发了第三次数学危机。这次危机虽然并未直接影响人们对数学的实际运用,却迫使人们重新思考什么是真正的数学。在城堡的地下室生活着一群蜘蛛,突然一阵大风吹散了它们辛辛苦苦编织的一张错综复杂的蛛网,于是它们慌乱地对蛛网加以修补,因为它们认为,正是蛛网支撑着整个城堡。原创 2024-05-18 11:01:38 · 198 阅读 · 0 评论 -
非平衡数据集与准确度悖论
分类问题是机器学习的研究重点,而后者在实践中常常碰到非均衡数据集这个难题。非均衡数据集(imbalanced data)又称为非平衡数据集,指的是针对分类问题,数据集中各个类别所占比例并不平均。比如在网络广告行业,需要对用户是否点击网页上的广告进行建模。为了处理方便,我们记“点击广告”为类别1,“不点击广告”为类别0。因此这是一个二元分类问题。在训练模型的历史数据里有1000个数据点(1000...原创 2018-09-15 08:52:51 · 914 阅读 · 1 评论 -
神经网络(二):Softmax函数与多元逻辑回归
文章目录一、 Softmax函数与多元逻辑回归二、广告时间一、 Softmax函数与多元逻辑回归为了之后更深入地讨论神经网络,本节将介绍在这个领域里很重要的softmax函数,它常被用来定义神经网络的损失函数(针对分类问题)。根据机器学习的理论,二元逻辑回归的模型公式可以写为如下的形式:(1)P(y=1)=11+e−XWT+bP(y = 1) = \frac{1}{1 + e^{-XW^T...原创 2018-10-01 14:20:52 · 2148 阅读 · 0 评论 -
生成式模型(一):蒙提霍尔问题与贝叶斯定理
一、 生成式模型这个系列将讨论人工智能领域非常重要、也十分被看好的一类模型:生成式模型(generative model)。因为这类模型不但能根据特征预测结果,还能“理解”数据是如何产生的,并以此为基础“创造”数据,这才是“真正意义上”的人工智能。而且正如费曼[]所说的“What I cannot create, I do not understand(我不能创造的东西,我就不了解)”,生成式模...原创 2018-09-20 22:55:24 · 2687 阅读 · 2 评论 -
神经网络(三):神经网络
文章目录一、 神经元到神经网络二、 图形表示三、 数学基础四、广告时间一、 神经元到神经网络在之前的文章中(《神经网络(一)》和《神经网络(二)》),我们讨论了如何为神经元搭建模型。虽然搭建模型的过程并不复杂,但得到的神经元模型也没有太多的新意,比如使用sigmoid函数作为激活函数,则得到的神经元模型就是逻辑回归。在人体中,单个神经元能做的事情非常有限,但多个神经元相互交织在一起就组成了人...原创 2018-10-04 11:41:30 · 983 阅读 · 0 评论 -
生成式模型(零):条件概率
文章目录一、 生成式模型二、 概率:量化随机三、 定义概率:事件和概率空间四、 条件概率:信息的价值一、 生成式模型这个系列将讨论人工智能领域非常重要、也十分被看好的一类模型:生成式模型(generative model)。因为这类模型不但能根据特征预测结果,还能“理解”数据是如何产生的,并以此为基础“创造”数据,这才是“真正意义上”的人工智能。而且正如费曼[]所说的“What I canno...原创 2018-09-22 21:03:06 · 1450 阅读 · 0 评论 -
神经网络(一):神经元模型与逻辑回归
文章目录一、仿生学二、神经元三、Sigmoid神经元与二元逻辑回归一、仿生学在经典的机器学习领域,有很多不同类型的模型,它们大致可以分为两类:一类是比较注重模型可解释性的传统统计模型,比如线性回归和逻辑回归;另一类是侧重于从结构上“模仿”数据的机器学习模型,比如监督式学习SVM和非监督式学习KMeans。这些模型虽然在结构和形态上千差万别,但它们有一个共同的建模理念,就是首先对数据做假设,然...原创 2018-09-28 16:58:21 · 10181 阅读 · 4 评论 -
神经网络(四):应用示例之分类
文章目录一、 传统分类模型的局限二、 神经网络的优势三、 代码实现([完整的代码请见](https://github.com/GenTang/intro_ds/blob/feature_pep_8/ch12-ann/mlp.py))程序清单1 定义神经网络的结构程序清单2 定义神经网络的结构程序清单3 训练模型程序清单4 对未知数据做预测四、广告时间一、 传统分类模型的局限在之前的文章中(《神...原创 2018-11-10 12:25:19 · 3512 阅读 · 0 评论 -
精通数据科学的奥义:腰椎间盘突出防治
每个数据工作者都需要一本从入门到腰椎间盘突出的参考书。或者再牛逼的技术也需要防治腰椎间盘突出。一、什么是腰椎间盘突出?首先看图说话,不专业的定义,腰椎间盘突出就是脊椎与脊椎之间的椎间盘变形了、膨胀了、过线了、碰到了不该触碰的东西。腰椎间盘突出有什么危害呢?四个字形容:痛不欲生,生不如死(不好意思,多打了四个字)。在发病期间,基本上就是卧床休息,翻身都很困难,特别是嘘嘘的时候...原创 2018-09-15 08:07:14 · 489 阅读 · 0 评论 -
中国数学教育的一些反思
虽然,我对数学不怎么懂,但我一直对好的数学教育颇感兴趣,曾经也作为数学学人接受过好几年的数学专业训练,这其中包括国内的,也包括我个人认为全世界最好的法国数学教育。所以一直有念头想把相关的思考写下来,也算是对自己未竟的数学梦的一个交代吧。其实,我的反思的结果非常简单,总结起来就一句话: 中国的数学教育缺乏“工程思想”,没有工程师的文化。为什么这么说呢?这里,让我们稍稍偏题一下,先来...原创 2018-09-13 22:16:27 · 786 阅读 · 0 评论 -
数据科学中的陷阱I:变量的数学运算合理吗?
数据科学中有各种各样的模型,有的听起来很简单,比如线性回归;有的呢,听起来就很吓人,比如深度学习。但是不管什么样的模型,从本质上来讲,模型都是对训练数据做数学运算,并以此求得模型参数的估计值。所以我们需要保证两点:第一,训练数据能进行数学运算第二,对变量所做的数学运算是合理的对于第一点,通常只在一些特定的应用场景里才需要比较复杂的处理,比如自然语言处理、图像识别等。但对于第二点,几乎...原创 2018-09-08 21:13:56 · 6369 阅读 · 0 评论 -
数据科学中的陷阱II:定性变量的处理
在之前的文章里《数据科学中的陷阱I:变量的数学运算合理吗?》,我们讨论过定性变量,也就是表示类别的变量,比如性别、省份等。对于这类变量,不能在模型里直接使用它们,因为定性变量之间的数学计算是毫无意义的。另一方面,定性变量是一类很常见的变量,通常带着很有价值的信息。因此,这篇文章就将讨论如何正确地在模型里使用定性变量。对于定性变量,常见的处理方法有两种:一种是将定性变量转换为多个虚拟变量,另一种...原创 2018-09-08 21:46:53 · 12034 阅读 · 0 评论 -
量化投资的利器:隐马尔可夫模型(二)
在之前的文章(《量化投资的利器:隐马尔可夫模型(一)》)里,我们比较“文学地”介绍了隐马尔可夫模型(HMM)的基本思想。而这篇文章将深入地从数学上来讨论HMM模型的细节。一、马尔可夫链首先讨论在处理序列数据时最常用的数学工具—马尔可夫链1(Markov chain或者Markov process)。马尔可夫链描述的是一个随机过程(stochastic process),比如《量化投...原创 2018-09-09 10:31:19 · 8950 阅读 · 1 评论 -
量化投资的利器:隐马尔可夫模型(三)
之前几篇有关HMM模型的文章(隐马尔可夫模型(一) ,隐马尔可夫模型(二) )主要讨论了这个模型的理论部分,从这篇文章开始,我们从实际的应用场景入手,看看应该如何使用HMM模型以及它的代码实现。与传统的机器学习模型分为界限明确的监督式学习和非监督式学习不同,HMM可以处理这两种场景的问题(这其实是所谓生成式模型的优点)。而这篇文章将先讨论监督式的场景。 一、中文分词:监督式学习 在对中...原创 2018-09-09 14:36:17 · 8358 阅读 · 0 评论 -
分类模型的评估(二)
在上一篇文章里(《分类模型的评估(一)》),我们讨论了针对某一给定分类结果的评估指标,也就是查准率(Precision)、查全率(Recall)以及综合两者的F-score。遗憾的是,这些指标并不能很好地评估一个二分类模型的效果,因为在人工智能领域,绝大多数模型都能产生好多份分类结果。关于这一点,可以将模型想象成一个吃鸡游戏的职业玩家,一个玩家可以玩很多局吃鸡比赛。那么对于每一局吃鸡游戏的结果...原创 2018-09-12 22:13:15 · 1088 阅读 · 0 评论 -
分类模型的评估(一)
针对二元分类结果,常用的评估指标有如下三个:查准率(Precision)、查全率(Recall)以及F-score。这篇文章将讨论这些指标的含义、设计初衷以及局限性。一、二元分类问题在机器学习领域,我们常常会碰到二元分类问题。这是因为在现实中,我们常常面对一些二元选择,比如在休息时,决定是否一把吃鸡游戏。不仅如此,很多事情的结果也是二元的,比如向妹子表白时,是否被发好人卡。当然,在...原创 2018-09-10 23:30:33 · 8966 阅读 · 0 评论 -
分类模型的评估(三)
在前两篇文章里(《分类模型的评估(一)》和《分类模型的评估(二)》),针对二分类问题,我们分别讨论了评估某个给定分类结果的指标:查准率(Precision)、查全率(Recall)以及F-score综合评估分类模型整体效果的指标:ROC曲线-AUC值这篇文章将借助一个具体的例子来讨论上述指标的代码实现(使用Python)一、什么是PythonPython是一门计算机编程语言,...原创 2018-09-13 20:43:16 · 655 阅读 · 0 评论 -
数据科学目标、挑战以及门派
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...原创 2018-09-08 20:43:11 · 6515 阅读 · 0 评论