小胖的数据学堂
文章平均质量分 86
挖掘数据中的价值,从实际出发,成体系的数学科学相关文章。
融汇贯通统计分析、机器学习以及计算机科学三门学科的知识。
tgbaggio1
《解构大语言模型:从线性回归到通用人工智能》、《精通数据科学》作者
数据科学家
展开
-
神经网络(一):神经元模型与逻辑回归
文章目录一、仿生学二、神经元三、Sigmoid神经元与二元逻辑回归一、仿生学在经典的机器学习领域,有很多不同类型的模型,它们大致可以分为两类:一类是比较注重模型可解释性的传统统计模型,比如线性回归和逻辑回归;另一类是侧重于从结构上“模仿”数据的机器学习模型,比如监督式学习SVM和非监督式学习KMeans。这些模型虽然在结构和形态上千差万别,但它们有一个共同的建模理念,就是首先对数据做假设,然...原创 2018-09-28 16:58:21 · 9939 阅读 · 4 评论 -
神经网络(二):Softmax函数与多元逻辑回归
文章目录一、 Softmax函数与多元逻辑回归二、广告时间一、 Softmax函数与多元逻辑回归为了之后更深入地讨论神经网络,本节将介绍在这个领域里很重要的softmax函数,它常被用来定义神经网络的损失函数(针对分类问题)。根据机器学习的理论,二元逻辑回归的模型公式可以写为如下的形式:(1)P(y=1)=11+e−XWT+bP(y = 1) = \frac{1}{1 + e^{-XW^T...原创 2018-10-01 14:20:52 · 2065 阅读 · 0 评论 -
神经网络(三):神经网络
文章目录一、 神经元到神经网络二、 图形表示三、 数学基础四、广告时间一、 神经元到神经网络在之前的文章中(《神经网络(一)》和《神经网络(二)》),我们讨论了如何为神经元搭建模型。虽然搭建模型的过程并不复杂,但得到的神经元模型也没有太多的新意,比如使用sigmoid函数作为激活函数,则得到的神经元模型就是逻辑回归。在人体中,单个神经元能做的事情非常有限,但多个神经元相互交织在一起就组成了人...原创 2018-10-04 11:41:30 · 868 阅读 · 0 评论 -
量化投资的利器:隐马尔可夫模型(二)
在之前的文章(《量化投资的利器:隐马尔可夫模型(一)》)里,我们比较“文学地”介绍了隐马尔可夫模型(HMM)的基本思想。而这篇文章将深入地从数学上来讨论HMM模型的细节。一、马尔可夫链首先讨论在处理序列数据时最常用的数学工具—马尔可夫链1(Markov chain或者Markov process)。马尔可夫链描述的是一个随机过程(stochastic process),比如《量化投...原创 2018-09-09 10:31:19 · 8819 阅读 · 1 评论 -
量化投资的利器:隐马尔可夫模型(三)
之前几篇有关HMM模型的文章(隐马尔可夫模型(一) ,隐马尔可夫模型(二) )主要讨论了这个模型的理论部分,从这篇文章开始,我们从实际的应用场景入手,看看应该如何使用HMM模型以及它的代码实现。与传统的机器学习模型分为界限明确的监督式学习和非监督式学习不同,HMM可以处理这两种场景的问题(这其实是所谓生成式模型的优点)。而这篇文章将先讨论监督式的场景。 一、中文分词:监督式学习 在对中...原创 2018-09-09 14:36:17 · 8298 阅读 · 0 评论 -
分类模型的评估(一)
针对二元分类结果,常用的评估指标有如下三个:查准率(Precision)、查全率(Recall)以及F-score。这篇文章将讨论这些指标的含义、设计初衷以及局限性。一、二元分类问题在机器学习领域,我们常常会碰到二元分类问题。这是因为在现实中,我们常常面对一些二元选择,比如在休息时,决定是否一把吃鸡游戏。不仅如此,很多事情的结果也是二元的,比如向妹子表白时,是否被发好人卡。当然,在...原创 2018-09-10 23:30:33 · 8887 阅读 · 0 评论 -
分类模型的评估(二)
在上一篇文章里(《分类模型的评估(一)》),我们讨论了针对某一给定分类结果的评估指标,也就是查准率(Precision)、查全率(Recall)以及综合两者的F-score。遗憾的是,这些指标并不能很好地评估一个二分类模型的效果,因为在人工智能领域,绝大多数模型都能产生好多份分类结果。关于这一点,可以将模型想象成一个吃鸡游戏的职业玩家,一个玩家可以玩很多局吃鸡比赛。那么对于每一局吃鸡游戏的结果...原创 2018-09-12 22:13:15 · 1058 阅读 · 0 评论 -
分类模型的评估(三)
在前两篇文章里(《分类模型的评估(一)》和《分类模型的评估(二)》),针对二分类问题,我们分别讨论了评估某个给定分类结果的指标:查准率(Precision)、查全率(Recall)以及F-score综合评估分类模型整体效果的指标:ROC曲线-AUC值这篇文章将借助一个具体的例子来讨论上述指标的代码实现(使用Python)一、什么是PythonPython是一门计算机编程语言,...原创 2018-09-13 20:43:16 · 612 阅读 · 0 评论 -
非平衡数据集与准确度悖论
分类问题是机器学习的研究重点,而后者在实践中常常碰到非均衡数据集这个难题。非均衡数据集(imbalanced data)又称为非平衡数据集,指的是针对分类问题,数据集中各个类别所占比例并不平均。比如在网络广告行业,需要对用户是否点击网页上的广告进行建模。为了处理方便,我们记“点击广告”为类别1,“不点击广告”为类别0。因此这是一个二元分类问题。在训练模型的历史数据里有1000个数据点(1000...原创 2018-09-15 08:52:51 · 790 阅读 · 1 评论