机器学习
AI小白入门
公众号:StudyForAI
知乎:https://www.zhihu.com/people/yuquanle/columns
展开
-
【机器学习】三层神经网络
来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接三层神经网络1. 神经单元 深度学习的发展一般分为三个阶段,感知机–>三层神经网络–>深度学习(表示学习)。早先的感知机由于采用线性模型,无法解决异或问题,表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性,而引入非线性激活函数来增加模型的表示能力。三层神经网络与感知机的两点不同1)非...原创 2020-04-03 16:29:33 · 1343 阅读 · 0 评论 -
【机器学习】Fisher线性判别与线性感知机
来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接Fisher线性判别与线性感知机 Fisher线性判别和线性感知机都是针对分类任务,尤其是二分类,二者的共同之处在于都是线性分类器,不同之处在于构建分类器的思想,但是二者有异曲同工之妙。同时二者又可以与logistic回归进行对比,当然logistic回归的理论基础是概率。1. Fisher线性判别 Fi...原创 2020-04-03 16:21:38 · 1100 阅读 · 0 评论 -
【机器学习】知否?知否?广义线性模型
来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接广义线性模型 从线性回归,logistic回归,softmax回归,最大熵的概率解释来看,我们会发现线性回归是基于高斯分布+最大似然估计的结果,logistic回归是伯努利分布+对数最大似然估计的结果,softmax回归是多项分布+对数最大似然估计的结果,最大熵是基于期望+对数似然估计的结果。前三者可以从广义线...原创 2020-04-03 16:03:08 · 317 阅读 · 0 评论 -
【机器学习】对数线性模型之Logistic回归、SoftMax回归和最大熵模型
来源 | AI小白入门作者 | 文杰编辑 | yuquanle完整代码见:原文链接1. Logistic回归 分类问题可以看作是在回归函数上的一个分类。一般情况下定义二值函数,然而二值函数构成的损失函数非凸,一般采用sigmoid函数平滑拟合(当然也可以看作是一种软划分,概率划分):从函数图像我们能看出,该函数有很好的特性,适合二分类问题。至于为何选择Sigmoid函数,后面可...原创 2020-04-03 15:50:45 · 512 阅读 · 0 评论 -
【机器学习】GBDT
提升树提升树GBDT同样基于最小化第mmm个学习器和前m−1m-1m−1个学习器累加起来损失函数最小,提升树采用残差的思想来最小化损失函数,将投票权重放到学习器上,使得基学习器的权重都为1。GBDT将损失用一阶多项式拟合,基学习器拟合梯度,学习器的权重为一阶多项式的系数。在前面的Adaboost中,我们需要学习MMM个基学习器,赋予不同的权重组合得到最后的强学习器。它是基于MMM个基学习器组...原创 2020-04-02 17:05:52 · 384 阅读 · 0 评论 -
【机器学习】Adaboost
AdaboostAdaboost的Boosting理解Adaboost是集成学习中Boosting方式的代表。多个基学习器其串行执行,下一个学习器基于上一个学习器的经验,通过调整样本的权重,使得上一个错分的样本在下一个分类器更受重视而达到不断提升的效果。Adaboost集成多个学习器的关键在两点:设置基学习器的权重:am=12log1−emema_{m}=\frac{1}{2}log...原创 2020-04-02 17:01:53 · 490 阅读 · 0 评论 -
【机器学习】随机森林
集成学习集成学习通过构建多个学习器采用加权的方式来完成学习任务,类似于”三个臭皮匠顶个诸葛亮”的思想。当然多个学习器之间需要满足一定的条件,一般来讲,多个学习器同属于一种模型,比如决策树,线性模型,而不会交叉用多种模型。为了保证集成学习的有效性,多个弱分类器之间应该满足两个条件:准确性:个体学习器要有一定的准确性,这样才能有好的效果。多样性:学习器之间要有一些差异,因为完全相同的几...原创 2020-04-02 16:54:18 · 807 阅读 · 0 评论 -
Macheine Learning Yearning学习笔记(六)
Chapter 33~Chapter 35详细讨论了与人类水平表现的比较Chapter 33、Why we compare to human-level performance(为什么我们要比较人类水平的表现)很多机器学习系统旨在帮助人类做事情。例如图像识别,语音识别,以及垃圾邮件分类。学习算法也提高了很多,我们现在能够在越来越多的任务中超越人类的表现。此外,如果你正在试图做一项人类可...原创 2018-06-07 00:27:13 · 1580 阅读 · 0 评论 -
Machine Learning Yearning介绍
Machine Learning Yearning是NG的新书,不过这本书的重点不在于教授ML算法,而在于教你如何使ML算法发挥作用。 很多AI课程会给教你制造一个锤子; 这本书教你如何使用锤子。 如果你渴望成为AI的技术领导者并想学习如何为你的团队设定方向,这本书将会有所帮助。官网地址:http://www.mlyearning.org/ github上现在可以看到:https://git...原创 2018-06-01 16:12:38 · 5228 阅读 · 0 评论 -
聚类算法总结
聚类算法概念:聚类就是按照某个特定标准(如距离准则)把一个数据集聚成不同的簇,使得同一簇内的数据的相似性尽可能大,同时不在同一个簇中的数据的相似性尽可能小。即聚类后要使得同一簇的数据尽可能聚集到一起,不同簇的数据尽量分离。聚类属于无监督学习算法。聚类算法分类:聚类算法的研究也是一个很大的家族,比较常见的有基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网络的聚类方法...原创 2018-06-08 23:14:11 · 2480 阅读 · 1 评论 -
机器学习一些算法简介
更多学习笔记关注:公众号:StudyForAI知乎专栏:https://www.zhihu.com/people/yuquanle/columns首先来看一下机器学习的定义:机器学习有下面几种定义:机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验,以此优化计算...原创 2018-11-21 17:48:29 · 1488 阅读 · 0 评论 -
自然语言处理基础技术之分词实战
声明:转载请注明出处:https://blog.csdn.net/m0_37306360/article/details/84404130更多学习笔记关注:公众号:StudyForAI知乎专栏:https://www.zhihu.com/people/yuquanle/columns昨天总结了一下分词概念以及一些现有的python开源工具,今天就来一波实战,顺便说一下jupyter真是好用...原创 2018-11-24 21:02:24 · 1853 阅读 · 0 评论 -
Macheine Learning Yearning学习笔记(五)
Chapter 28~Chapter 32详细讨论了学习曲线(Learning curves)Chapter 28、Diagnosing bias and variance: Learning curves(诊断偏差和方差:学习曲线)我们已经学习了一些方法去估计有多少错误可归因于可避免的偏差和方差。我们通过估计最优错误率,并计算算法的训练集和开发集误差来进行估计的。下面讨论一个更具体的方法...原创 2018-06-07 00:08:47 · 1589 阅读 · 0 评论 -
Macheine Learning Yearning学习笔记(四)
Chapter 20~Chapter 27详细讨论了Bias 和VarianceChapter 20、Bias and Variance: The two big sources of error(偏差和方差是误差的两大来源)假设你的训练集、开发集和测试集都来自相同的分布。那么你应该总是试图去获取更多的训练数据,因为这样能只提高性能,对吗?机器学习中有两个主要误差来源:偏差和方差。理解...原创 2018-06-06 23:08:59 · 1578 阅读 · 0 评论 -
Macheine Learning Yearning学习笔记(三)
Chapter 13~Chapter18 详细讨论了常见的基本的误差分析Chapter 13、Build your first system quickly, then iterate(快速构建第一个系统,然后再一步步迭代)在做工程项目时,不要试图一开始就设计完美的系统。相反,应该快速构建和训练出第一版基本系统(也许在短短的几天内)。即使基本系统与您能构建的“最佳”系统相差甚远,研究基本系...原创 2018-06-06 23:03:17 · 1536 阅读 · 0 评论 -
CNN学习笔记
介绍卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具原创 2017-07-15 13:45:04 · 1661 阅读 · 0 评论 -
RNN学习笔记以及LSTM详解
RNNRNN介绍RNN的目的使用来处理序列数据。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行原创 2017-07-18 15:39:49 · 9499 阅读 · 2 评论 -
sklearn之决策树实战
介绍决策树是用于分类和回归的非参数监督学习方法。 目标是创建一个模型,通过学习从数据特征推断的简单决策规则来预测目标变量的值。分类DecisionTreeClassifier是能够在数据集上执行多类分类的类。DecisionTreeClassifier将输入两个数组:数组X,大小为[n_samples,n_features],以及整数值的数组Y,大小[n_samples](类标签)。from skl原创 2017-08-08 09:54:51 · 2299 阅读 · 0 评论 -
人工智能一些术语总结
随着智能时代慢慢的到来,有一些基本概念都不知道真的是要落伍了,作为正在积极学习向上的青年,我想总结一份笔记,此份笔记会记录众多AI领域的术语和概念,当然,学一部分记录一部分,并且可能会夹杂着自己的一些理解,希望大家多多赐教。目录暂定以首字母的字典序排序。 A 准确率(accuracy) 分类模型预测准确的比例。 二分类问题中,准确率定义为:accuracy = (true positives原创 2017-10-07 20:49:26 · 3275 阅读 · 0 评论 -
数据预处理-sklearn实战
介绍sklearn.preprocessing包为用户提供了多个工具函数和类,用于将原始特征转换成更适于项目后期学习的特征表示。标准化、去均值、方差缩放数据集的标准化,对于大部分机器学习算法来说都是一种常规要求。如果单个特征没有接近于标准正态分布(零均值和单位方差的高斯分布),那么它可能并不能在项目中表现出很好的性能。例如, 许多学习算法中目标函数的基础都是假设所有的特征都是零...原创 2017-08-07 16:15:52 · 2254 阅读 · 0 评论 -
决策树详解
版权声明:博客文章都是作者辛苦整理撰写的,转载请注明出处,谢谢!https://blog.csdn.net/m0_37306360/article/details/76861494写在前面决策树(decision tree)是一种基本的分类和回归方法,是机器学习的基本模型,其模型是树形结构,其具体实现包括三种经典算法,分别为ID3,C4.5,CART。 决策树可以作为基本模型用于构建复合...原创 2017-08-07 21:13:03 · 3180 阅读 · 0 评论 -
sklearn之朴素贝叶斯实战
朴素贝叶斯之多项式模型MultinomialNB 实现了数据服从多项式分布时的贝叶斯算法。import numpy as np#随机产生0-4之间的整数,产六组,一组100个x = np.random.randint(5, size=(6, 10))y = np.array([1, 2, 3, 4, 5, 6])from sklearn.naive_bayes impor...原创 2017-08-07 20:57:00 · 2269 阅读 · 0 评论 -
贝叶斯分类之朴素贝叶斯原理
介绍贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。贝叶斯定理先简单谈一下贝叶斯定理,它特别有用,这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。条件概率...原创 2017-08-07 20:48:49 · 2068 阅读 · 0 评论 -
我的机器学习之路
版权声明:博客文章都是作者辛苦整理撰写的,转载请注明出处,谢谢!https://blog.csdn.net/m0_37306360/article/details/79780749时间2018年4月1号,静下心来梳理了一周的机器学习、nlp相关知识脉络,头有点炸,感觉很多地方搞不明白,网上资料鱼龙混杂,有写的好的,也有写的差的,有专门针对新手入门的,也有只有大佬才看的懂的复杂公式,作为一只入门...原创 2018-04-01 19:31:24 · 2410 阅读 · 4 评论 -
感知机详解
版权声明:博客文章都是作者辛苦整理撰写的,转载请注明出处,谢谢!https://blog.csdn.net/m0_37306360/article/details/79885858感知机算法感知机(Perceptron)在1957年由Rosenblatt提出,是神经网络和支持向量机的基础。感知机是一种二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,+1代表正类,-1代...原创 2018-04-10 18:57:57 · 5079 阅读 · 0 评论 -
Macheine Learning Yearning学习笔记(一)
前面Chapter1~Chapter 4谈了一些基本概念Chapter 1、Why Machine Learning Strategy (为什么要学习机器学习策略) 这一章告诉我们机器学习策略的重要性,以一个实际的机器学习项目切入: 猫检测算法,这是一个经典的计算机视觉领域的问题,判断给定一张图片是否是猫。当我们提出的算法准确性还不够好的时候,我们应该怎么做?这个时候我们可能会面临很多...原创 2018-06-03 23:08:15 · 1728 阅读 · 0 评论 -
Macheine Learning Yearning学习笔记(二)
Chapter 5~Chapter 12 详细讨论了设置开发集(development sets)和测试集(test sets)Chapter 5、Your development and test sets (您的开发和测试集)让我们回到前面的例子:猫的图片问题,其实可以看成一个二分类的问题,当图片是猫时,这是正样本(positive examples),当图片不是猫时,这些样本是负样本...原创 2018-06-03 23:17:02 · 1642 阅读 · 0 评论 -
机器学习
机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从原创 2017-07-14 12:39:25 · 1709 阅读 · 0 评论