Machine learning
沐雨金鳞
大行不顾细谨
展开
-
对深度学习目前以及未来的看法 (AI时代可能延后,但总会到来)
下面的观点仅代表个人看法,没有收到任何外在观点的浸染,只是自己躺在椅子上,望着蓝蓝的天空,脑子里突然蹦出来的想法。个人认为:深度学习目前处于一个突破性的临界点的状态,很像是60年代左右出现的数据库的状态,当然如果相比于数据库,数据库系统发展经历了人工、文件、然后才到了目前的数据库系统的阶段,深度学习呢,神似数据库的发展,数据库是如何发展起来的呢,对数据量的要求,对存储结构的要求,然后经过...原创 2020-04-08 16:43:04 · 1342 阅读 · 2 评论 -
牛顿法
损失函数在初始化参数下的泰勒展开的前几项 = 0 来近似 损失函数 = 0迭代过程:牛顿法是二阶收敛,梯度下降是一阶收敛,所以更快。为什么深度学习不采用牛顿法及其衍生算法作为优化算法?一句话:计算复杂,容易陷入鞍点。下摘自为啥不用?原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更...原创 2020-04-06 15:27:45 · 295 阅读 · 0 评论 -
KNN和MLP实现多分类器
训练集和测试集信息如下图:多分类为最后的quality可以看到quality分类为3~9之间的7个数。我们首先采用机器学习算法KNN实现一下:# coding=utf-8import numpy as npimport operatorimport argparseimport pandas as pd# 属性配置parser = argparse.Argu...原创 2019-12-15 16:58:28 · 2096 阅读 · 0 评论 -
分类误差率
看这个题,我们只看c选项的a1。这时候对应的信息是: T F + 3 1 - 1 4 T的分类误差率为:1-max{1/4,,3/4} = 1/4F的分类误差率为:1-max{1/5,4/5} = 1/5a1的总体误差率为:(1/4*4 + 1/5*5)/ 9 = 2/9...原创 2019-11-06 17:08:25 · 4372 阅读 · 0 评论 -
一、机器学习方法概论问题总结
1、机器学习的对象是什么?2、机器学习根据任务类型,可以划分为哪些?3、机器学习根据算法类型,可以分为哪些?4、什么是没有免费的午餐定理?1、输入空间、输出空间、特征空间分别表示什么?1、监督学习为何称为‘监督’?2、监督学习的目的是什么?3、监督学习模型可以分为哪两类?4、监督学习分为哪两个过程?1、解释什么是生成方法?什么是判别方法?2...原创 2019-11-06 08:55:00 · 228 阅读 · 0 评论 -
小组开会第二周总结:朴素贝叶斯法
1、什么是朴素贝叶斯,具体过程是怎么样的。朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。2、朴素贝叶斯‘朴素’在什么地方。朴素在贝叶斯定理对条件概率分布做了条件独立性假设。3、朴素贝叶斯假设特征条件独立,为什么这种情况下...原创 2019-11-04 08:14:02 · 170 阅读 · 1 评论 -
小组开会第一周总结:KNN-KD树
本周小组主要对统计学习方法第三章:KNN。进行了讨论,主要总结如下。1、KNN算法三要素:K值选择、距离度量方式、分类决策规则。2、K值选择可以采用三种方式:a、经验选取(个数/类别数) b、特征交叉 c、画精确率和召回率曲线,找交点对应K值。3、距离度量:欧式距离、街区距离等。4、分类决策规则:经验风险最小化。平均损失函数最小化。5、KNN中K值选择小,则过拟合;K值选择大,...原创 2019-10-27 21:33:41 · 148 阅读 · 0 评论 -
优化算法总结
好久就想写一篇有关优化算法的文章,今天下定决心一定要把优化算法弄的明明白白。一、梯度想学习优化算法首先就要知道什么是梯度。1、微积分中:梯度表示函数增长最快的方向。神经网络中:采用负梯度表示目标函数下降最快的方向。2、梯度仅仅指示了每个参数各自增长最快的方向,仅对每个参数而言,无法保证方向是全局最大(小)的方向。3、梯度具体的计算方法:反向传播。4、参数(负)梯度的大小表明...原创 2019-11-14 08:32:21 · 2073 阅读 · 0 评论 -
机器学习面试题第一天
每天几道机器学习、深度学习、计算机视觉的面试题用来充实自己,题不在多,在于能不能理解,如果只是简单的复制粘贴,就是去了意义,我尽量将每道题都能用直接作为回答的答案来写,啦啦啦,开始啦!1、逻辑回归的优缺点?优点:a、简单快速内存小,可在短时间内迭代多个版本的模型。b、模型的可解释性非常好,可以直接看到各个特征对模型结果的影响,可解释性在某些领域很重要,所以业界很多仍然使用逻辑回归模...原创 2019-10-23 17:00:38 · 465 阅读 · 0 评论 -
手写朴素贝叶斯python3代码
上午放学的时候同学问了一个问题,就是朴素贝叶斯中计算后验概率的时候用python怎么存储二维数据呢?下午顺手写了一下,果然是个问题,机智的我用了字典嵌套字典的方式实现了一下,哈哈哈。代码如下:loadData.pydef load_data(): train_data = [ [1,'S',-1], [1,'M',-1], ...原创 2019-10-23 16:58:14 · 732 阅读 · 0 评论 -
模型的性能度量总结
原创 2019-09-19 10:53:44 · 306 阅读 · 0 评论 -
梯度下降法推导过程
提前祝大家中秋节快乐!原创 2019-09-11 22:08:20 · 612 阅读 · 0 评论 -
EM算法
大家学习机器学习可能都有一种感受,就是你花费了好长时间理解的某个算法,其实恍然大悟之后发现原来这么简单,枉我们花大量时间去看它的数学推导。所以这里我也是总结了一个例子理解EM算法的思想而已,具体的详细推导在:干货|EM算法原理总结 里面有详细的推导过程。本文总结自:如何理解EM算法...原创 2019-09-08 13:25:09 · 159 阅读 · 0 评论 -
PCA(主成分分析)过程详解
当数据维度太大时,我们通常需要进行降维处理,降维处理的方式有很多种,PCA主成分分析法是一种常用的一种降维手段,它主要是基于方差来提取最有价值的信息,虽然降维之后我们并不知道每一维度的数据代表什么意义,但是它将主要的信息成分保留了下来,那么PCA是如何实现的呢?我们首先要知道基坐标的概念,基坐标其实就是我们定义的坐标轴,我们平时最常用的基坐标便是X,Y坐标轴,如果我们重新定义了一个基坐标,那么...原创 2019-09-07 12:24:57 · 27774 阅读 · 18 评论 -
机器学习模型设计准则:“无免费午餐”定理和“奥卡姆剃刀”原则
转载:机器学习模型设计准则:“无免费午餐”定理和“奥卡姆剃刀”原则 好好看看,你会有观念上的收获的(*^▽^*)上学时你一定过学习新知识的经历:首先要结合老师的讲解进行消化理解,接着要做些练习题找到问题并加强巩固,最后通过考试来检验学习的最终效果。机器学习需要根据问题特点和已有数据确定具有最强解释性或预测力的模型,其过程也可以划分为类似于“学习 - 练习 - 考试”这样的三个阶段,每...转载 2019-08-13 09:38:16 · 607 阅读 · 0 评论 -
集成学习原理总结(bagging\boosting)
转载:集成学习原理总结 前言集成学习是目前比较火的机器学习方法,也是面试官考察的一个重点方向。集成学习不是一种机器学习方法,它是通过结合多个机器学习模型来给出学习结果,集成学习很好的避免了单一学习模型带来的过拟合问题,本文简明扼要的对集成学习原理做一个总结。目录1. 集成学习概述2. 集成学习之bagging3. 集成学习之boosting4. 集成学习之结合策略5...转载 2019-08-13 11:20:51 · 1114 阅读 · 0 评论 -
正则化技术深入总结
本文总结之王海安的机器学习课程一、正则化作用及其常见术语正则化技术的本质作用是防止过拟合,提高模型的泛化能力。黄大哥说:听到正则化你首先要想到并且能够讲到下面三个点:1、正则化等价于结构风险最小化,正则化是通过在经验风险项后加上表示模型复杂度的正则化项或惩罚项,达到选择经验风险和模型复杂度都较小的模型的目的。经验风险:训练误差,经验风险最小化即为训练误差最小。结构风险:...原创 2019-08-17 11:29:18 · 1019 阅读 · 0 评论 -
踏踏实实利用AdaBoost元算法(集成方法)提高分类性能
当我们做决定时,可能会综合考虑很多个人的意见,一个人的意见可能并不可靠。元算法(集成方法)是对其他算法进行组合的一种方式,AdaBoost便是一种元算法。本文主要讲解内容有:不同分类器的集成方法 boosting方法及其代表分类器AdaBoost AdaBoost算法应用在单层决策树分类器上 非均衡分类问题第一部分:基于数据集多重抽样的分类器元算法(集成方法)有...原创 2019-08-16 17:12:25 · 356 阅读 · 0 评论 -
机器学习实战(二、K-近邻算法简单实现)
K-近邻算法采用测量不同特征值之间的距离进行分类工作原理:前提:训练样本集,每个样本有标签(每个数据与所属分类的对应关系)操作:输入无标签样本,将新数据的每个特征与训练样本集中数据的每个特征比较,得出最相似的K个数据结果:查看K个数据的标签,哪个标签出现最多,则无标签样本就属于哪个标签K-近邻算法执行过程:算法如下:# coding=u...原创 2019-07-05 11:15:05 · 361 阅读 · 0 评论 -
机器学习实战(二、K-近邻算法:简易实现版本+详细讲解版本)
# coding=utf-8#K-近邻算法简易版本'''inX:测试集dataset:训练集labels:标签集K:K近邻'''def classify0(inX, dataset, labels, k): #获得训练集中数据的个数 dataSetSize = dataset.shape[0] #将测试数据转化成dataSetSize行,1列,然后训练...原创 2019-07-05 11:15:19 · 292 阅读 · 0 评论 -
机器学习实战(二、K-近邻算法:约会对象好感度分析)
第一部分:数据加载并处理(获得训练集和标签集)#加载数据并处理数据def file2matrix(filename): #print("打开文件") fr = open(filename) arrayOLines = fr.readlines() #print("显示每一行数据:") #print(arrayOLines) ...原创 2019-07-05 11:15:43 · 732 阅读 · 0 评论 -
机器学习实战(二、K-近邻算法:手写识别系统)
使用K-近邻分类器的手写识别系统这里构造的系统只能识别数字0到9需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:宽髙是32像素 * 32像素的黑白图像trainingDigits包含了大约2000个例子每个数字大约有200个样本testDigits包含了大约900个测试数据第一步:将图像矩阵转换成1*1024的向量,以便于进行...原创 2019-07-05 11:16:02 · 484 阅读 · 1 评论 -
机器学习实战(三、决策树:计算熵值、划分数据集、获得熵值最小的特征值)
K - 近邻算法可以完成很多分类任务但是它最大的缺点就是无法给出数据的内在含义决策树的主要优势就在于数据形式非常容易理解1、熵:度量数据集的无序程度计算数据集的香农熵:# coding=utf-8from math import log#计算数据集的香农熵def calcShannonEnt(dataSet): #获得数据集...原创 2019-07-05 11:16:22 · 3259 阅读 · 0 评论 -
机器学习实战(八:预测数值型数据:线性回归简单实现)
回归:对连续型的数据做出预测案例:如果你要预测汽车的功率大小可能的计算公式为:HorsePower = 0.0015*annualSalary - 0.99*hoursListeningToPublicRadio回归方程:上面的式子回归系数:0.0015和0.99回归:求解系数的过程如何才能确定系数呢?平方误差:使预测值和真实值之间的差值最小...原创 2019-07-05 11:16:46 · 1076 阅读 · 0 评论 -
python机器学习Kaggle实战搜索算法性能冠军思路
案例介绍Wij:通过1式计算得出Oij:O11表示真实评分1和预测评分1的样本个数,O12表示真实评分1和预测评分2的样本个数...Eij:样本总数 / 评分类型个数冠军是怎么做的Preprocessing: Dropping HTML tags:去除THML标记 Word ...原创 2019-08-13 15:40:32 · 296 阅读 · 0 评论 -
百面机器学习第一章:特征工程
黑色:每一小节的题目浅蓝色:每一小节对应的问题红色:分析和扩展深粉色:每一小节的总结概述机器学习核心:对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。问题:什么是特征工程 ,特征工程的本质,实际工作中如何实现?特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用...原创 2019-08-19 10:47:04 · 556 阅读 · 0 评论 -
特征工程:8中常用数值型数据处理方法
原创 2019-08-24 18:39:07 · 716 阅读 · 0 评论 -
特征工程:8种常用类别型数据处理方法
8种常用类别型数据处理方法原创 2019-08-25 07:59:28 · 2809 阅读 · 0 评论 -
特征工程:时间特征处理方式
时间特征处理方式原创 2019-08-25 09:12:52 · 4058 阅读 · 0 评论 -
特征工程:空间特征处理方式
原创 2019-08-25 09:20:52 · 389 阅读 · 0 评论 -
特征工程:文本特征预处理
原创 2019-08-25 10:13:00 · 509 阅读 · 0 评论 -
机器学习实战(一)
1、何谓机器学习?机器学习就是把无序的数据转换成有用的信息。2、案例体重、翼展、有无脚蹼以及后背颜色这四种值称之为特征,也可以称作属性。前两种特征是数值型,可以使用十进制数字第三种特征(是否有脚蹼)是二进值型,只可以取0或1第四种特征(后背颜色)是基于自定义调色板的枚举类型机器学习的主要任务就是分类训练集是用于训练机器学习算法的数据样本集合...原创 2019-07-05 11:14:44 · 1939 阅读 · 0 评论