Machine Learning
如风过境YD
这个作者很懒,什么都没留下…
展开
-
machine learning中的概率论名词解释
后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率,后验概率的计算,要使用贝叶斯公式。先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,在应用贝叶斯理论时,通常将先验概率乘以似然函数(likelihoodfunction)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据...原创 2020-07-07 16:47:54 · 245 阅读 · 0 评论 -
模型评估与调参
一、通过管道创建工作流1.1 数据导入与预处理# 导入相关数据集import pandas as pdimport urllibtry: df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases' '/breast-cancer-wiscons...原创 2019-11-17 13:47:49 · 221 阅读 · 0 评论 -
逻辑回归实例,特征预处理
给定训练集spam_train.csv,要求根据每个ID各种属性值来判断该ID对应角色是Winner还是Losser(收入是否大于50K),这是一个典型的二分类问题。训练集介绍:(1)、CSV文件,大小为4000行X59列;(2)、4000行数据对应着4000个角色,ID编号从1到4001;(3)、59列数据中, 第一列为角色ID,最后一列为分类结果,即label(0、1两种),中间的57...原创 2019-11-17 09:55:47 · 2460 阅读 · 1 评论 -
BP(BackPropagation)误差逆传播算法
上篇文章介绍了多层前馈神经网络,那么这种网络是怎样训练生成的呢,BP算法就是其中一种生成多层神经网络的算法,下面来了解一下BP算法。原创 2019-07-26 16:38:10 · 997 阅读 · 0 评论 -
朴素贝叶斯分类
前面我们了解全概率公式和贝叶斯公式,如果对贝叶斯公式不太熟悉可以参考全概率公式与贝叶斯公式这篇文章。贝叶斯公式首先复习一下贝叶斯公式:假设有事件A,Bi,i=1,2,3,...,n\quad B_i,i=1,2,3,...,nBi,i=1,2,3,...,n,则在A事件发生时,BiB_iBi事件发生的概率P(Bi∣A)P\left(B_{i} | A\right)P(Bi∣A):P(...原创 2019-08-06 10:41:27 · 133 阅读 · 0 评论 -
EM(Expection-Maximization)算法
贝叶斯分类中我们考虑了样本的属性独立性假设,一对一和一对多的依赖关系,那么在实际情况中,当属性有缺失时应该怎么办呢?此时可以引入EM算法解决问题。首先来了解一下EM算法,又称期望最大化算法,算法分为两步,E步和M步,算法主要解决概率模型中含有观测变量和隐变量的样本。观测变量即给定数据已知样本属性值,可以用极大似然法或贝叶斯估计来估计模型参数,隐变量即样本的某种属性值有未知(我们知道数据可以分成两...原创 2019-08-13 17:44:23 · 431 阅读 · 0 评论 -
奇异值分解(SVD)
前面我们学过了PCA来降维,将数据投影到新超平面空间,主要是计算数据的协方差矩阵,然后求协方差矩阵的特征值和特征向量,将特征值按照大到小的顺序排列,然后删掉较小的特征值,将数据投影到特征空间。学过线性代数可知,方阵才能求特征值,那么当协方差矩阵不是方阵时应该怎么办呢。奇异值分解可以解决这种问题。...原创 2019-08-19 11:06:06 · 648 阅读 · 0 评论 -
聚类,K-均值算法
clusterk-means(k均值算法)层次聚类原创 2019-08-11 11:23:46 · 407 阅读 · 0 评论 -
集成学习
集成学习主要介绍了Bagging,随机森林和Boost原创 2019-08-12 10:54:17 · 115 阅读 · 0 评论 -
KNN(近邻)算法
然后计算空间距离欧几里得距离计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测类到。比如,现在K=4,那么在这个电影例子中,把距离按照升序排列,距离绿点电影最近的前4个的电影分别是《后来的我们》、《前任3》 、《无问西东》 和《红海行动》,这四部电影...原创 2019-08-12 15:33:01 · 254 阅读 · 0 评论 -
PCA(主成分分析)
降维主成分分析(PCA(Principal Component Analysis))原创 2019-08-17 16:18:26 · 687 阅读 · 0 评论 -
线性模型实例
根据前九个小时的空气检测情况预测第十个小时的PM2.5的值。数据预处理对于空缺值,可以使用补全法和删除法,补全法一般填补样本均值,数据预处理的作用是将数据转变为模型可识别的数据。...原创 2019-09-25 22:31:56 · 1430 阅读 · 1 评论 -
Support Vector Machine 支持向量机
Linear SVM原创 2019-08-04 10:28:45 · 119 阅读 · 0 评论 -
CNN(Convolutional Neural Network)卷积神经网络
CNN(Convolutional Neural Network)卷积神经网络一般用于图像识别设计CNN的三个理由A neuron does not have to see the whole image to discover the pattern(只需要识别一部分)The same patterns appear in different regionsSubsampling t...原创 2019-07-30 17:42:26 · 298 阅读 · 0 评论 -
梯度下降法(Gradient descent)
在了解梯度下降法之前我们首先来了解一下梯度的概念梯度设函数z=f(x,y)z=f(x,y)z=f(x,y)在平面区域DDD内具有一阶连续偏导数,则对于每一点P(x,y)∈DP(x,y)\in{D}P(x,y)∈D,都可以定出一个向量∂f∂xi⃗+∂f∂yj⃗(其中i,⃗,j⃗)为单位向量\frac{\partial f}{\partial x} \vec{i}+\frac{\partial f...原创 2019-07-25 14:31:12 · 629 阅读 · 0 评论 -
线性模型(linear model)
线性模型是机器学习中最简单的模型,却蕴含着机器学习中的一些重要思想,许多功能强大的非线性模型可在线性模型的基础上通过层级结构或高维映射而得。原创 2019-07-12 16:51:09 · 9765 阅读 · 0 评论 -
偏差(bias)与方差(variance)
偏差与方差偏差: 描述模型输出结果的期望与样本真实结果的偏离程度。方差: 描述模型对于给定值的输出稳定性。 度量同样大小的训练集的变动所导致的学习性能的变化,刻画数据扰动所产生的影响偏差表示期望输出与真实标记的差别f^表示总体期望值,f*一次实验的结果(根据样本估测的值)图中Bias表示偏差,即打靶时没有瞄准中心点,Variance好比发射出去时手抖了简单模型:偏差大,方差小(简...原创 2019-07-11 11:04:28 · 896 阅读 · 0 评论 -
Machine learning中的常见名词解释
本篇文章主要介绍机器学习中常见的名词,如模型、标记、过拟合、欠拟合、查准率和查全率、调参,以及置信度等原创 2019-07-11 11:04:03 · 518 阅读 · 0 评论 -
初识神经网络
神经网络简介神经网络中最基本的成分是神经元(neuron)模型,在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个“阈值”(threshold), 那么它就会被激活,即“兴奋”起来,向其他神经元发送化学物质.类似的“M-P 神经元模型”,在这个模型中,神经元接收到来自n个其他神经元传递过来的输...原创 2019-07-23 17:16:05 · 292 阅读 · 0 评论 -
ReLU激活函数,Maxout
梯度消失在使用sigmoidsigmoidsigmoid激活函数进行梯度下降调参时,往往会出现梯度消失的问题,即无法找到收敛点。神经网络主要的训练方法是BP算法,BP算法的基础是导数的链式法则,也就是多个导数的乘积。而sigmoidsigmoidsigmoid的导数最大为0.25,且大部分数值都被推向两侧饱和区域,这就导致大部分数值经过sigmoidsigmoidsigmoid激活函数之后,其...原创 2019-07-29 15:17:21 · 454 阅读 · 0 评论 -
正则化
在衡量建立模型的好坏时,我们通常使用误差函数来检测,并进行调参,以找到最好的拟合函数,使得达到误差最小化。但通常会出现这样的情况:模型在训练集上拟合的很好,而在测试集上拟合的效果较差,误差较大(过拟合)。如图:我们应该让模型拟合停在一个合适的点(Testing error最低的地方)。那么应该怎么知道Tesing set上的误差呢,我们可以使用训练集中的数据进行交叉验证(在训练集里采样验证集...原创 2019-07-29 17:39:37 · 161 阅读 · 0 评论 -
熵(Entropy)、信息熵增益、信息熵增率和基尼(Gini)指数
本篇主要介绍在构造决策树的过程中利用熵、信息增益、信息熵增率、Gini指数来衡量样本属性,选择结点的几种方法原创 2019-07-20 13:49:04 · 6939 阅读 · 1 评论 -
神经网络小结
在训练神经网络的过程中,多数情况下,会遇到准确率不高的情况,不能一次获得最好的结果;一般是两种情况会导致准确率不准。1. 欠拟合欠拟合一般表现为训练集的准确率不高,这种情况下,应该:适当的增加或减少隐层的层数或者神经元的个数将原来使用的均方误差函数改为交叉熵作为损失函数将梯度下降法调参改为随机梯度下降(SGD),等等其他效果更好的梯度下降函数如果使用的是mini-batch梯度下...原创 2019-07-30 08:56:38 · 195 阅读 · 0 评论 -
决策树中连续型值和缺失值处理
在构造决策树时选择最优属性划分数据集时,常常会碰到一些连续型属性和一些样本的属性值缺失的情况,本篇主要介绍如何处理缺失值和连续值。原创 2019-07-20 21:26:36 · 1566 阅读 · 0 评论 -
决策树(decision tree)
决策树是一个分类的经典算法,是基于树结构来进行决策即能够做回归也能做分类。一般地,一颗决策树包含有一个根节点、若干个内部结点(非叶子结点)和若干个叶节点。如图所示,树的每个结点表示一种决策属性(选择),每个样本通过根节点通过分支往下走,最终可以得到分类结果。树的基本结构:构建决策树决策树的生成过程是一个递归过程,在决策树的基本算法中,有三种情况会导致递归返回,信息熵(informat...原创 2019-07-21 13:26:22 · 1587 阅读 · 0 评论 -
步长(学习率learning rate)
步长(学习率)在进行梯度下降法的过程中,我们需要通过调整η\etaη学习率的值来调整参数每次要走的距离。适当的调整η\etaη可以更准确的找到LLL的最小值以及参数值。下面需要注意调整步长η\etaη(往下一步要走的距离)的大小:不同大小的η\etaη可能会造成下面图中的情况一种方法是将参数的变化与函数LLL的改变的情况可视化当η\etaη太小,则L变化缓慢,对应下图中绿色线条当η...原创 2019-07-25 14:28:50 · 8337 阅读 · 0 评论 -
全概率公式和贝叶斯公式
贝叶斯公式在机器学习中有广泛的应用,本篇文章主要讲解贝叶斯公式由条件概率和全概率公式的推导过程,以及与机器学习的相关知识。原创 2019-07-15 15:10:18 · 3377 阅读 · 0 评论