机器学习
文章平均质量分 79
西瓜书的阅读笔记 以及实战
Joker-Tong
深度学习learning中
展开
-
动手学深度学习 实战Kaggle比赛-房价预测
动手学深度学习 实战Kaggle比赛-房价预测 本文介绍Kaggle比赛的房价预测实战之前阅读了权重衰减和dropout等方法结合前几篇文章介绍的多层感知机 所以写此文来记录并巩固文章目录动手学深度学习 实战Kaggle比赛-房价预测前言正文读取数据集前言附上比赛原文地址点击“Data”标签 下载需要用到的数据正文读取数据集比赛数据分为训练数据集和测试数据集。两个数据集都包括每栋房子的特征如道类型、建造年份、房顶类型、地下室状况等特征值。这些特征值有连续的数字、离散的标原创 2021-02-16 15:59:43 · 1301 阅读 · 0 评论 -
Python 各种库对图像数据的读取与显示
Python 各种库对图像数据的读取在深度学习的图像分类等任务中,我们不可避免要接触到许多图像而有些数据集中的图像并不能单独打开因此,使用一种自己熟悉的方法将图像读取并显示出来能让我们的体验更好也方便了我们观察中间过程因此本文记录了 几种常见的读取图像数据的方法正文本文需要下载下面两个库来读取图像文件matplotlibopencv-python首先准备两张图片,这里我随便搜了2张,懒得自己搜的也可以右键另存为下面的图片重命名成 img1.jpg和img2.jpg放在项目文件夹原创 2021-02-01 11:07:13 · 851 阅读 · 0 评论 -
机器学习(西瓜书) 1-5章回顾
数据挖掘1-5章复习文章目录数据挖掘1-5章复习第一章 绪论基本术语假设空间版本空间NFL定理第二章 模型评估与选择准备一下开学的考试复习第一章 绪论基本术语特征标记训练集测试集监督学习分类回归无监督学习聚类泛化能力假设空间所有属性的可能性(可能取值)组合形成的假设(假设*,*,*为好瓜),组成假设空间例如:色泽属性可取(青绿,乌黑,浅白,*)根蒂属性可取(蜷缩,稍蜷,硬挺,*)敲声属性可取(浊响,清脆,沉闷,*)以及原创 2020-09-17 20:20:13 · 768 阅读 · 0 评论 -
一起学西瓜书08集成学习 (二)Boosting
一起学西瓜书08集成学习 (二)Boosting1.Boosting的思路集成多个模型,每个模型都在尝试增强整体效果。具体来说:就是先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前学习器做的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个学习器如此重读进行,直至学习器数目达到预先指定的值. 从图中可以看出,Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之原创 2020-07-27 13:54:10 · 342 阅读 · 0 评论 -
一起学西瓜书08集成学习 (一)个体与集成
一起学西瓜书08集成学习(一)个体与集成下面的图是集成学习的大概流程这里的一个个个体学习器就相当于不同的机器学习算法比如我们之前学的贝叶斯分类器,神经网络,决策树,集成学习就是把这些不同的算法结合起来也就是将一个个 个体学习器结合起来最后输出那么集成学习有什么好处呢?下面就看一个简单的二分类例子 只有 对和错两种情况 ,并且集群的结果遵循少数服从多数的原则在上图中, 集群随着个体的变化有着三种不同的结果,这告诉我们集成中的个体分类器应该好而不同二分类问题上面的公式可能有点难理解,原创 2020-07-27 13:53:59 · 326 阅读 · 0 评论 -
机器学习代码02 softmax regression代码实现(基于python numpy)
机器学习代码02 softmax regression代码实现(分别基于numpy和torch)机器学习代码01 Logistic Regression代码实现(分别基于numpy和torch)之前的文章里实现了Logistic Regression,但它仅仅是个二分类的问题,为了实现多分类的问题,这里就使用到了softmax函数python 定义softmax函数def softmax(a): c = np.max(a) exp_a = np.exp(a - c) # 防止溢原创 2020-07-26 13:57:18 · 1654 阅读 · 3 评论 -
一起学西瓜书07 贝尔斯分类器(六)EM算法
一起学西瓜书07 贝尔斯分类器(六)EM算法对于EM算法,我会先给出书上的流程,再结合一个容易懂的案例来理解EM 算法 (Expectation Maximization)大致流程隐变量就是我们看不见的,比如下图中的根蒂属性案例我们抽取了一个学校两百名学生的身高,但粗心的忘记了统计男女在这里我们假设男生和女生的身高分别服从不同参数的正态分布,那么对于这个问题我们该如何实验EM算法最后确定出合理的参数问题很简单,我们需要估计的问题有2个学生是男生还是女生男生和女生对应的身高正态分原创 2020-07-25 19:37:39 · 273 阅读 · 0 评论 -
一起学西瓜书07 贝尔斯分类器(五)贝叶斯网
一起学西瓜书07 贝尔斯分类器(五)贝叶斯网引言贝叶斯网络又称为信度网络,是基于概率推理的图形化网络。它是贝叶斯法则的扩展,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络适用于表达和分析不确定性和概率性事件,应用于有条件地依赖多种控制因素的决策过程,可以从不完全、不精确或不确定的知识或信息中做出推理。贝叶斯网络由Judea Pearl于1988年提出,最初主要用于处理人工智能中的不确定信息。随后,逐步成为处理不确定性信息技术的主流,并在文本分类、字母识别、经济预测、医疗诊断、工业控制等领域得到原创 2020-07-25 19:37:31 · 578 阅读 · 0 评论 -
一起学西瓜书07 贝尔斯分类器(四)半朴素贝叶斯分类器
一起学西瓜书07 贝尔斯分类器(四)半朴素贝叶斯分类器SPODETANAODE原创 2020-07-25 19:37:11 · 238 阅读 · 0 评论 -
一起学西瓜书07 贝尔斯分类器(三)朴素贝叶斯分类器
一起学西瓜书07 贝尔斯分类器(三)贝叶斯分类器朴素贝叶斯分类器朴素贝叶斯分类器用到的知识就是我们在概率论里面学到的贝叶斯公式这里的前提是属性条件都相互独立, 也就是说我们可以把它们连乘起来下图给出了朴素贝叶斯分类器的求解关键,我将使用书上的一个实际案例来分析理解它案例下图是我们已知的西瓜数据集,也来源于西瓜书我们的目的是使用朴素贝叶斯分类器来判断下列这组测试数据的结果是不是好瓜结合之前的求解关键,我将一步一步来解析这个过程是怎么进行的0.数据类比下图是书上的原话, 在这个案例原创 2020-07-25 19:36:52 · 1362 阅读 · 0 评论 -
一起学西瓜书07 贝尔斯分类器(二) 极大似然估计
一起学西瓜书07 贝尔斯分类器(二) 极大似然估计前言 举例 极大释然估计可以通过下面的文章理解一下,之前在统计学里面已经学过了,这里就不详细介绍了如何通俗地理解“最大似然估计法”?这里的DcD_cDc就是之前链接里面的集合 比如抛了n次硬币组成的集合注意这里假设样本是独立的, 所以对于集合里面每个元素的概率我们可以采取连乘的方法,这就是似然函数通过对数的方法求出最大值,之前在统计学里面使用的方法是求导数等于0的点之前的图片里面说了贝叶斯学派 假定参数服从一个先验分布 ,这里也就是正态原创 2020-07-25 19:36:42 · 279 阅读 · 0 评论 -
一起学西瓜书07 贝尔斯分类器(一) 贝叶斯决策论
一起学西瓜书07 贝尔斯分类器(一) 贝叶斯决策论前言:贝叶斯定理先简单的回顾一下概率论与数理统计中学习的贝叶斯定理在这里,我以已经医疗诊断问题作为举例,来简单的讲一下贝叶斯定理的计算案例介绍这就是我们的问题,下面我把它抽象成数学语言患病即为cancer 有病记为+所以题目的条件就可以转换为下面一系列的式子而我们的目标是计算P(cancer∣+)与P(!cancer∣+)P(cancer|+) 与P(!cancer|+)P(cancer∣+)与P(!cancer∣+)的值,从而判断是否原创 2020-07-25 19:36:30 · 378 阅读 · 0 评论 -
机器学习之朴素贝叶斯(NB)分类算法与Python实现
机器学习之朴素贝叶斯(NB)分类算法与Python实现转载 2020-07-25 16:40:32 · 240 阅读 · 0 评论 -
机器学习代码01 Logistic Regression代码实现(分别基于numpy和torch)
机器学习代码01 Logistic Regression简单介绍Logistic Regression是线性回归,但最终是用作分类器:它从样本集中学习拟合参数,将目标值拟合到[0,1]之间,然后对目标值进行离散化,实现分类。Logistic Regression虽然叫逻辑回归,但解决的问题是分类问题通常来说 Logistic Regression处理的问题是二分类的问题logistic分类的流程比较简单线性求和sigmoid函数激活计算误差修正参数问题介绍下图给出的是部分数据集原创 2020-07-17 12:56:36 · 6428 阅读 · 0 评论 -
一起学西瓜书06 支持向量机(核函数)
一起学西瓜书06 支持向量机(核函数)之前我们已经说过,碰到线性不可分的情况时,我们处理的方法是把它转到高纬度去处理这里的预测公式中将xi和xj先做数组运算,节省了时间下面举个简单的例子说明它的可行性我们要将已知的函数转化为三维,下面的推导过程详细说明的两者结论的等价所以我们可以先做数组运算,再平方核函数因为在机器学习中,我们求解的过程要用到内积,而变换后的高维空间的内积我们不好求,所以我们定义了这个核函数,可以把高维空间的内积运算转化成内为空间的某些运算,这样求起来不是很简单吗?换句原创 2020-07-14 14:14:37 · 300 阅读 · 0 评论 -
一起学西瓜书06 支持向量机(对偶)
一起学西瓜书06 支持向量机(对偶)如何理解拉格朗日乘子法和KKT条件,可以看这篇文章拉格朗日乘子法的简单介绍拉格朗日乘子法的具体介绍可以看上面的文章,我这边就简单的说一下它的核心概念介绍首先简单的讲一下梯度方向导数是各个方向上的导数偏导数连续才有梯度存在梯度的方向是方向导数中取到最大值的方向,梯度的值是方向导数的最大值可以这么理解–>梯度与等高线的切线垂直梯度的求法就是对方差求偏导除此之外,我们还需要知道一下极值点的求解,比如下面的问题是求方程与原点的最短距离很明显,原创 2020-07-14 13:35:04 · 340 阅读 · 0 评论 -
一起学西瓜书06 支持向量机(基本概念+间隔)
一起学西瓜书06 支持向量机这部分内容是我以前接触比较少的,接下来将从线性分类器开始介绍支持向量机SVM推荐一个支持向量机的理解视频:支持向量机@最清晰简单的解释@一看就懂Maximal margin classifier对于一组一维的数据,线性分类器的目的就是找到一个超平面(阈值),也就是图中橙色的那条线把它们分成2类而我们之后的数据如果落在阈值左边就判断它属于红色那类的,如果落在阈值右边就属于绿色那类在最普通的情况下,我们所选择的阈值的是红和绿的两个边界点的中间位置而边界点到阈值的举例之原创 2020-07-11 16:25:24 · 435 阅读 · 0 评论 -
一起学西瓜书05 神经网络
一起学西瓜书05 神经网络发展历史了解一下神经网络的发展神经元模型神经网络的定义M-P神经元模型而MP神经元模型就是模拟了生物神经网络中的情况,将其抽象为下图简单的模型激活函数模拟生物神经网络中的情况,神经元兴奋则对应 1 ,神经元抑制则对应了 0 ,这是理想的阶跃函数,模拟出了神经元传递的过程,但是在实际情况中我们常常实验sigmoid函数来作为激活函数,因为它连续可导,并且可以把输入值挤压到 0与1 之间神经网络就是把许多个这样的神经元按一定的层次结构连接起来感知机与多层网原创 2020-07-11 11:01:50 · 492 阅读 · 0 评论 -
一起学西瓜书04 决策树
一起学西瓜书04 决策树基本流程决策树是基于树结构来进行决策的,它有点类似于if else的结构,也跟人思考问题的思维非常类似,如下图是决策树学习的一个基本算法流程,如果看不懂没关系,在后文中会结合案例写出决策过程决策树的生成是一个递归过程.在决策树基本算法中,有三种情况会返回结果此时样本D中的样本全部都属于一种类别,比如都是好瓜,那么此时就说明不需要再划分了。如果此时属性集合为空或者此时所有的样本的各个属性值都相同,比如剩了三个西瓜,这三个西瓜的根蒂、色泽、敲声都是一样的,这时候无法原创 2020-07-10 22:24:42 · 702 阅读 · 0 评论 -
西瓜书 第一章 绪论 参考答案
西瓜苏 第一章 绪论 参考答案第一题1.1 表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。下图是只包含编号为1,4的表编号色泽根蒂敲声好瓜1青绿蜷缩浊响是4乌黑稍蜷沉闷否首先我们解释一下版本空间的概念,简单来说就是下面这样假设空间:属性所有可能取值组成的可能的样本版本空间:与已知数据集一致的所有假设的子集集合。这里要注意的是,假设空间里面的通配符∗*∗,它的含义就是比如"色泽"有 青绿,乌黑,浅白这三种可能的取值原创 2020-07-09 22:02:29 · 3976 阅读 · 5 评论 -
一起学西瓜书03 线性模型
一起学西瓜书03 线性模型基本形式线性模型的常用形式可以写成这样f(x)=wTx+bf(x) = w^Tx + bf(x)=wTx+b,其中 w 和 x都是向量,这里的x可以有n个,相对应的w也有n个,展开来写其实就是y=w1x1+w2x2+......+wnxny = w_1x_1+ w_2x_2+......+ w_nx_ny=w1x1+w2x2+......+wnxn 我们将已知的x和y的数据传给机器,它会在学习后得到最佳的w和b,使得我们的线性模型得以确定除此之外,线性模型具有可原创 2020-07-09 20:54:02 · 664 阅读 · 0 评论 -
一起学西瓜书02 模型评估与选择
机器学习02 模型评估与选择前言这一张的内容非常重要,在今后的学习中起到了基石的作用先粗略的分为以下几种情况一种训练集一种算法经验误差与过拟合这里要先介绍一下错误率的概念,我们以手写数字识别为例错误率与误差再看下面的概念就清晰了许多错误率就是错误的数量误差就是预测与真实之间的差异,在下图中,误差分为了三种误差但是在实际当中,因为我们不知道未知数据的特征是什么,我们所能做的优化就是尽量减少训练误差,也就是在已有数据上进行预测而计算出的误差过拟合与欠拟合可以看一下下图的案例两原创 2020-07-09 11:28:57 · 751 阅读 · 7 评论 -
01 基本概念
机器学习01 绪论1.1引言机器学习主要用于解决什么问题?通过计算的手段,利用经验来改善系统自身的性能有了数据通过某种学习算法得到模型进行预测1.2基本术语这些很简单,看看图就好了数据通过某种学习算法通常对于监督学习,我们可以划分训练集,测试集,这个会在后续介绍得到模型这里的模型通常有下面几种有监督学习:分类回归无监督学习聚类半监督学习两者结合下面就介绍一下这几种模型,都以西瓜来举例进行预测泛化能力机器学习的目标是使得原创 2021-01-09 17:47:27 · 725 阅读 · 0 评论