![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
bluesliuf
bluesliuf@163.com
展开
-
集成学习中的Bagging和Boosting
在机器学习和统计学习中, 集成学习(Ensemble Learning)是一种将多种学习算法组合在一起以取得更好表现的一种方法。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等。集成学习概述什么是集成学习(此处以分类为例)将多个分类方法聚集在一起,以提...原创 2019-03-26 20:19:42 · 482 阅读 · 0 评论 -
CNN网络架构演进:从LeNet到DenseNet
本文主要介绍卷积神经网络(CNN) 的发展演变,包含对每个网络的结构分析,创新点总结。内容来自自己的收集整理,还有网易云课堂吴恩达的卷积神经网络教学视频。LeNet-5LeNet是LeCun在1998年提出,用于解决手写数字识别(0-9) 的视觉任务。自那时起,CNN的最基本的架构就定下来了:卷积层、池化层、全连接层。如今各大深度学习框架中所使用的LeNet都是简化改进过的LeNet-5。和原...原创 2019-04-18 12:45:33 · 995 阅读 · 0 评论 -
CNN网络发展史
转载自 https://www.cnblogs.com/skyfsm/p/8451834.html转载 2019-03-28 11:43:51 · 541 阅读 · 0 评论 -
牛客笔试题之顺丰机器学习真题
昨天做了一套顺丰人工智能和机器学习的真题,下面是对其中一些知识点的总结。Java中的String解析:链表链表的特性,使其在某些操作上比数组更加高效。增删不必挪动元素。当进行插入和删除操作时,链表操作的时间复杂度仅为O(1)。无需实现估计空间。链表在内存中不是连续存储的,所以可以充分利用内存中碎片空间。UDP与TCPTCP面向有连接可靠面向字节流数据无边界...原创 2019-03-28 11:05:33 · 1458 阅读 · 0 评论 -
牛客笔试题之机器学习
昨天做完了牛客网上的机器学习试题,下面是对一些错题的分析,并简要总结了一些机器学习中应该注意的知识点,过段时间会对其中的一些方法进行更加详细的分析介绍。题中打问号?代表该题答案存在争议,不一定准确。过拟合问题解析:造成过拟合的原因主要有:训练数据不足训练模型过度导致模型非常复杂,泛化能力差样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系;权...原创 2019-03-28 11:02:44 · 2283 阅读 · 1 评论 -
马氏距离和欧式距离详解
一般在机器学习模型中会涉及到衡量两个样本间的距离,如聚类、KNN,K-means等,使用的距离为欧式距离。其实,除了欧氏距离之外,还有很多的距离计算标准,本文主要介绍欧氏距离和马氏距离。欧氏距离最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x=(x1,…,xn)x = (x_1,…,x_n)x=(x1,…,xn) 和 y=(y1,…,yn)y...原创 2019-03-28 10:09:02 · 106608 阅读 · 20 评论 -
2019春实习-百度-计算机视觉算法研发工程师真题
前两天刚参加完百度计算机视觉算法实习岗的远程笔试,下面是我记忆中的一些考题,先记录下来,等答案公布再来详细分析。题型选择:30道,每题2分,共60分问答:1道,每题30分,共30分设计:1道,每题30分,共30分编程:2道,每题20分,共40分总分160分,考试时间2h选择题选择题包含单选和多选,涉及到的考点很广,主要包括数据结构、操作系统、网络、C++程序题、视觉相关题等。数...原创 2019-04-04 21:58:38 · 1931 阅读 · 4 评论 -
机器学习方法之神经网络(NN)
神经网络算法( Neural Network )是机器学习中非常非常重要的算法。它 以人脑中的神经网络为启发,是整个深度学习的核心算法。深度学习就是根据神经网络算法进行的一个延伸。背景神经网络是受神经元启发的,对于神经元的研究由来已久,1904年生物学家就已经知晓了神经元的组成结构。一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传...原创 2019-03-27 09:12:52 · 7374 阅读 · 0 评论 -
准确率,精确率,召回率和F1值
机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。 (注: 相对来说,IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Co...原创 2019-03-27 09:15:48 · 20037 阅读 · 3 评论 -
机器学习正则化之L0、L1与L2范数
最近刷题时,经常会遇到关于L1和L2范数的知识点,本文就其详细的分析记录一下。前言我们常见的监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时要最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。如果参数太多,会导致我们的...原创 2019-03-27 09:15:33 · 426 阅读 · 0 评论 -
机器学习方法之K-means聚类
聚类(Clustering),就是将相似的事物聚集在一 起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。与此前介绍的决策树,支持向量机等监督学习不同,聚类算法是非监督学习(unsupervised learning ),在数据集中,并不清楚每条数据的具体类别。算法K-means 算法是数据挖掘十大经典算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广...原创 2019-03-27 09:14:32 · 552 阅读 · 0 评论 -
机器学习方法之非线性回归( Logistic Regression)
非线性回归是线性回归的延伸,其目标预测函数不是线性的。本文主要介绍逻辑回归(Logistic Regression),它是非线性回归的一种,虽然名字中有“回归”二字,但其本质上是一个分类模型。含义我们知道,线性回归的模型是求出输出特征向量Y和输入样本矩阵X之间的线性关系系数θ,满足Y=XθY=XθY=Xθ。此时Y是连续的,所以是回归模型。如果Y是离散的话,如何解决?一个可以想到的办法是,我们...原创 2019-03-27 09:13:41 · 10357 阅读 · 0 评论 -
回归中的相关度和决定系数
训练集中可能是有若干维度的特征。但有时并不是所有特征都是有用的,有的特征其实和结果并没有关系。因此需要一个能衡量自变量和因变量之间的相关度。皮尔逊相关系数皮尔逊相关系数(Pearson correlation coefficient),是用于度量两个变量 X 和 Y 之间的相关(线性相关),其值介于[-1,1] 之间。有三种相关情况:正向相关: >0负向相关:<0无相关性...原创 2019-03-27 09:14:11 · 3159 阅读 · 0 评论 -
机器学习方法之线性回归(LR)
线性回归(linear regression)是利用数理统计和归回分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。与之前的分类问题( Classification )不一样的是,分类问题的结果是离散型的;而回归问题中的结果是连续型(数值)的。数据特征数理统计中,常用的描述数据特征的有:**均值(mean):**又称平均数或平均值,是计算样本中算术平均数:x‾=...原创 2019-03-27 09:13:21 · 1264 阅读 · 0 评论 -
机器学习方法之SVM
支持向量机(support vector machine),简称SVM,最早在1963年,由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 提出。目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出,并在1995年发表。背景深度学习(2012)出现之前,SVM被认为机器学习中近十几年来最成功,表现最...原创 2019-03-26 20:56:08 · 984 阅读 · 0 评论 -
机器学习方法之决策树
决策树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。上图中是否出去玩取决于天气情况(sunny、overcast、rain)和空气湿度(humidity、windy)这2个属性的值。信息熵决策树算法种类很多,本文主要介绍ID3算法。ID3算法在1970-1980年,由J.Ross. Qui...原创 2019-03-26 20:52:05 · 462 阅读 · 0 评论 -
机器学习方法之KNN
K最近邻(k-Nearest Neighbor,KNN)分类算法,思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。实例分析有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说,现在,我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红...原创 2019-03-26 20:48:36 · 376 阅读 · 0 评论 -
深度学习的常见模型CNN
CNN的来源CNN由纽约大学的Yann LeCun于1998年提出。CNN本质上是一个多层感知机,其成功的原因关键在于它所采用的局部连接和共享权值的方式。一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。CNN是神经网络中的一种,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。权重共享:在卷积神经网络中,卷积层的每一个卷...原创 2019-03-26 20:29:26 · 5634 阅读 · 0 评论 -
计算机视觉面试常见问题(含解答)
最近忙着找实习,对计算机视觉中常见的问题做了简单梳理,会不定时更新。CNNCNN在图像上表现好的原因直接将图像数据作为输入,不仅无需人工对图像进行预处理和额外的特征抽取等复杂操作,而且以其特有的细粒度特征提取方式,使得对图像的处理达到了几近人力的水平。参数和计算量的计算卷积输入为W×H×CW \times H \times CW×H×C,卷积核K×K×NK \times K \times...原创 2019-04-18 21:54:44 · 19832 阅读 · 1 评论