算法
不拿大场offer不改名
成为优质的码农
展开
-
Tensorflow2打印模型结构图
from tensorflow.keras.utils import plot_modelplot_model(model, to_file='DResLayer_model.png', show_shapes=True) # 保存模型结构图原创 2020-12-22 21:28:05 · 2069 阅读 · 0 评论 -
网络调参的技巧:使用平滑标签
标签平滑(Label smoothing),像L1、L2和dropout一样,是机器学习领域的一种正则化方法,通常用于分类问题,目的是防止模型在训练时过于自信地预测标签,改善泛化能力差的问题。NIPS 2019上的这篇论文When Does Label Smoothing Help?用实验说明了为什么Label smoothing可以work,指出标签平滑可以让分类之间的cluster更加紧凑,增加类间距离,减少类内距离,提高泛化性,同时还能提高Model Calibration(模型对于预测值的con原创 2020-12-21 20:49:13 · 350 阅读 · 0 评论 -
Tensorflow2.x查看模型网络结构,保存网络模型机构图
img_input = Input(shape=(224, 224, 3))output = DResLayer(1000, [2, 3, 4, 2], [64, 128, 256, 512])(img_input)model = models.Model(img_input, output)model.summary()from tensorflow.keras.utils import plot_modelplot_model(model, to_file='DResLayer_model..原创 2020-12-21 20:41:43 · 4382 阅读 · 0 评论 -
特征选择主要包括什么?
特征选择是非常关键的步骤,选入大量的特征不仅会降低模型的效果,也会耗费大量的计算时间。而漏选的特征也会直接影响到最终的模型效果。选择方法为:1.方差选择法:假如某列特征数值变化一直平缓,说明这个特征对结果的影响很小,所以可以计算各个特征的方差,选择方差大于自设阈值的特征。2.相关系数,统计检验:相关系数和统计检验都可以用来特征选择,常用的有person相关系数和卡方检验,前者主要用于连续变量,后者用于离散变量。3.互信息法:互信息法也经常被用于来评价自变量对因变量的相关性,互信息的计算公式为原创 2020-09-28 13:51:41 · 577 阅读 · 0 评论 -
什么是判别式模型?什么是生成式模型?
判别方法:由数据直接学习决策函数,或者由条件分布概率作为预测模型的为判别模型。常见的判别模型有:线性回归、boosting、SVM、决策树、感知机、线性判别分析(LDA)、逻辑斯特回归等算法。生成方法:由数据学习x和y的联合概率密度分布函数,然后通过贝叶斯公式求出条件概率分布作为预测的模型为生成模型。常见的生成模型有朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型(LDA)等。回归问题常用的性能度量指标:均方误差:均方根误差:和方误差:平均绝对误差:平均原创 2020-09-28 13:33:55 · 4712 阅读 · 0 评论 -
(一)什么是决策树?ID3、C4.5、CART树的思想、原理和步骤?
一.什么是决策树? 已知输入变量和输出变量均为连续变量的预测问题被称为回归问题,输出变量为有限个离散变量的预测问题被称为分类问题。决策树是一种分类与回归的方法,因其结构呈树状而得名。决策树是一种描述对实例进行分类的结构。 决策树的实施包括以下几个步骤:特征选择、决策树的生成和树的剪枝。1)特征选择 实际项目中的特征变量数都会大于两个,此时对多个特征进行先后顺序不一样的决策时会有不一样的结果和准确率。所以就需要特征选择来决定当前应该选择那种特征来...原创 2020-09-27 13:56:56 · 497 阅读 · 0 评论 -
特征为什么要做归一化?归一化的三种方式各有 什么缺点?
为什么要进行特征归一化? 不同的特征往往具有不用的量纲和量纲单位,为了消除指标之间的量纲影响,解决数据指标之间的可比性。三种归一化:1)线性比例变换:2)极差变换法(离差标准化):缺点:(1)当有新数据加入时,会导min(x)和max(x)的变化,需要重新定义。 (2)存在极端的最大值或者最小值。适用于数据量较小的工程。3)0均值标准化(Z-score方法)适用于服从正态分布的数组...原创 2020-09-25 10:59:05 · 3302 阅读 · 0 评论 -
树模型如何对连续型特征进行处理?
假设训练样本集合D中有n个样本,考察对连续属性a的最佳划分点。若属性a在这n个样本中有m个不同的取值(m<=n),对这m个值两两之间取中点,可获得m-1个中点作为候选划分点。选择过程接下来的选择最佳划分点过程和离散属性的虚选择过程类似,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。...原创 2020-09-25 10:20:35 · 717 阅读 · 0 评论 -
L1正则化和L2正则化的区别?
L1正则化目的:减少参数的绝对值总和。L2正则化目的:减少参数平方的总和。由L1正则化的定义可以看出最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0,产生稀疏权重矩阵;而L2正则化的最优参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0;另外一个区别就是: L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。 L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。...原创 2020-09-25 09:25:21 · 677 阅读 · 0 评论 -
什么是SVM?SVM的优缺点?
SVM:中文名叫支持向量机,它的基本模型是定义在特征空间上的间隔最大的线性分类器。 具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。 在线性不可分时,加入松弛变量并通过非线性映射将低维输入空间的样本映射到高维空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。SVM的优点:1)解决了小样本情况下的机器学习。2)由于使用核函数方法克服了维数灾难和非线性可分的问题,所以向高维空间映射时没有增加计算的复杂度。(由于支持向量机算法...原创 2020-09-24 23:27:24 · 17095 阅读 · 0 评论 -
什么是聚类分析?聚类的方法有哪些?列举一种说说原理和步骤?
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类的方法有:K-means聚类、均值漂移聚类、基于密度的聚类方法。K-means:K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有原创 2020-09-24 14:10:33 · 4135 阅读 · 0 评论 -
一根绳子,随机截成3段,可以组成一个三角形的概率有多大?
设绳子长为a,折成三段的长度为x,y,a-x-y从而得到,满足这三个约束条件在平面直角坐标系中的可行域为一个直角三角形,面积为。而构成三角形的条件,任意两边和大于第三边的条件x+y>a-x-y,a-y>y,a-x>x同时成立。满足以上不等式在平面直角坐标系中也是一个直角三角形,面积为,所以构成三角形概率为((1/8)a^2)/((1/8)a^2) = 0.25...原创 2020-09-23 15:03:00 · 8385 阅读 · 0 评论 -
切比雪夫不等式
原创 2020-09-23 14:28:31 · 399 阅读 · 0 评论 -
某大公司有这么一个规定:只要有一个员工过生日,当天所有员工全部放假一天。但在其余时候,所有员工都没有假期,必须正常上班。这个公司需要雇用多少员工,才能让公司一年内所有员工的总工作时间期望值最大?
假设一年有365 天,每个员工的生日都概率均等地分布在这 365 天里。E=n * (1-1/365)^nn=365原创 2020-09-23 14:22:32 · 1442 阅读 · 0 评论 -
一个活动,n个女生手里拿着长短不一的玫瑰花,无序的排成一排,一个男生从头走到尾,试图拿更长的玫瑰花,一旦拿了一朵就不能再拿其他的,错过了就不能回头,问最好的策略?
https://blog.csdn.net/qiao1025566574/article/details/107859001转载 2020-09-23 14:17:57 · 353 阅读 · 0 评论 -
a,b~U[0,1],互相独立,求Max(a,b)期望
原创 2020-09-23 13:52:39 · 2686 阅读 · 2 评论 -
sigmoid函数特性
定义域为值域为(0,1)函数在定义域内为连续和光滑的函数处处可导,导数为推导过程为:原创 2020-09-23 13:47:26 · 401 阅读 · 0 评论 -
L1不可导的时候怎么办?
当损失函数不可导,梯度下降不再有效,可以使用坐标轴下降法,梯度下降是沿着当前点的负梯度方向进行参数更新,而坐标轴下降法是沿着坐标轴的方向,假设有m个特征个数,坐标轴下降法进参数更新的时候,先固定m-1个值,然后再求另外一个的局部最优解,从而避免损失函数不可导问题。...原创 2020-09-23 13:40:16 · 340 阅读 · 0 评论 -
SGD,Momentum,Adagard,Adam的原理
SGD为随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。Momentum参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。Adagard在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的参数模和的开方成反比。Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数较为平稳。...原创 2020-09-23 13:35:50 · 652 阅读 · 0 评论 -
双向链表的删除和插入
原创 2020-09-22 10:34:37 · 156 阅读 · 0 评论