机器学习
Beyond_2016
这个作者很懒,什么都没留下…
展开
-
机器学习—初见
机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。原创 2017-10-29 20:06:42 · 420 阅读 · 0 评论 -
机器学习-算法工程师 -面试/笔试准备-重要知识点梳理
medium=referral极大似然估计(MLE)与最大后验概率估计(MAP)http://blog.csdn.net/lin360580306/article/details/51289543https://www.cnblogs.com/sylvanas2012/p/5058065.html迁移学习https://www.zhihu.com/question/41979241...转载 2018-07-24 16:24:56 · 270 阅读 · 0 评论 -
常见机器学习面试题
参考:http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from=singlemessage# http://blog.csdn.NET/heyongluoyao8/article/details/49429629http://lib.csdn.Net/article/machinelearning/3...转载 2018-07-24 16:28:15 · 440 阅读 · 0 评论 -
机器学习常见的问题
过拟合原因数据:数据不规范,数据量少,数据穿越,统计特征用到了未来的信息或者标签信息算法:算法过于复杂解决:1、将数据规范化,处理缺失值,增加数据量,采样,添加噪声数据2、正则化,控制模型复杂程度,3、early stoping,减少迭代次数,减少树的深度,4、学习率调大/小点、5、融合几个模型L1和L2的区别1、L1是Lasso Regression,表示向量中每个元素绝对...原创 2018-07-24 16:29:46 · 344 阅读 · 0 评论 -
机器学习那点事儿
1.k=20;k+=k-=k-k;求k实际上是在考运算符的优先级。答案应该是40.注意 举例++,++在左,操作数先加一,然后放入表达式中运算。++在右,先把操作数放入表达式运算,然后再加一。2.class A extends DemoOne,DemoTwo{}这样写是不对的,一个类不可以同时继承两个类,因为javaz中不支持多继承。3.抽象类 abstract ...转载 2018-07-24 16:31:50 · 158 阅读 · 0 评论 -
核函数详解
核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数 ,可记作 k(||x-xc||), 其作用往往是局部的,即当x远离xc时函数取值很小。方法原理编辑根据模式识别理论,低维空间...原创 2018-08-14 15:48:12 · 4004 阅读 · 0 评论 -
常见的几种最优化方法
目录1. 梯度下降法(Gradient Descent)2. 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods3. 共轭梯度法(Conjugate Gradient)4. 启发式优化方法 5. 解决约束优化问题——拉格朗日乘数法 我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要...原创 2018-08-14 16:07:44 · 1428 阅读 · 0 评论 -
二阶优化算法:牛顿法
牛顿法的基本思想:利用迭代点处的一阶导数(梯度)和二阶导数(Hessian矩阵)对目标函数进行二次函数近似,然后把二次模型的极小点作为新的迭代点,并不断重复这一过程,直至求得满足精度的近似最小值。 牛顿法的更新公式,基于二阶泰勒展开: 然后对上式求导,并令,得到更新公式: 对于神经网络病态条件问题,出现在梯度变化过快的情况时即二阶导数较大,此时通过...原创 2018-08-14 16:08:37 · 3698 阅读 · 0 评论 -
Unhandled exception at 0x000007FEFD5C9E5D in OpenCV3.3_TestDemo.exe: Microsoft C++ exception: cv::Ex
1 致谢对于OpenCV的安装 要感谢网友的教程链接如下:https://blog.csdn.net/beyond_2016/article/details/81359762教程写的十分详细 截图什么的也很好 2 问题描述今天在安装和测试OpenCV的时候遇到了这样的问题 测试代码如下 其中图片文件的路径是用Windows文件资源管理器里面的“复制路径”功能复制...原创 2018-08-02 16:12:10 · 2791 阅读 · 2 评论 -
ROS,Ubuntu,noobs,raspbian和raspbeery pi3的关系
今年要研究AI方向,具体课题还没定,但已经确定在raspbeery pi3上完成ros的东西。之前完全没接触过树莓派,更不清楚ROS系统。看了很多贴吧,总觉得越看越糊涂。 现在之总结了些:Noobs和Raspbian是树莓派的操作系统,ROS是机器人操作系统。不知对不对。但比如树莓派上安装了noobs或raspbian系统后,又和ROS有什么关系呢?ros应该也是个操作系统吧...原创 2018-08-15 13:55:32 · 2843 阅读 · 1 评论 -
主流深度学习框架对比
深度学习研究的热潮持续高涨,各种开源深度学习框架也层出不穷,其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon,等等。然而TensorFlow却杀出重围,在关注度和用户数上都占据绝对优势,大有一统江湖之势。表2-1所示为各个开源框架在GitHub上的数据统计(数据统计于2017年1月...原创 2018-08-15 15:02:49 · 583 阅读 · 0 评论 -
欠拟合、过拟合的解决办法?
欠拟合解决方法:1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。除上面的特征之外,“上下文特征”、“平台特征”等等,都可以作为特征添加的首选项。2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添...原创 2018-04-21 15:51:43 · 663 阅读 · 0 评论 -
线性回归和逻辑回归的区别?
1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。 2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。 3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系 4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系 ...原创 2018-04-21 15:50:53 · 1467 阅读 · 0 评论 -
10、线性回归和逻辑回归的区别?
1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系...原创 2018-07-25 10:22:33 · 573 阅读 · 0 评论 -
ValueError: Input contains NaN, infinity or a value too large for dtype('float32').
ValueError: Input contains NaN, infinity or a value too large for dtype('float32'64). 一般处理方式对于以上问题其原因一般是数据集中存在nan值,以下假设数据用numpy.ndarray存储(type(positive)=)。首先,我们知道 if np.isnan(x) 用于判断x是否为nan,为n原创 2017-11-03 20:32:16 · 17828 阅读 · 0 评论 -
机器学习算法“攻城狮”成长-必经之路
问题导读:1. 基础开发能力包含哪些部分?2. 概率和统计基础包含哪些部分?3. 机器学习理论包含哪些部分?4. 开发语言和开发工具包含哪部分?5. 机器学习算法工程师现状是怎样的?成为一名合格的开发工程师不是一件简单的事情,需要掌握从开发到调试到优化等一系列能力,这些能力中的每一项掌握起来都需要足够的努力和经验。而要成为一名合格的机器学习算法工程师原创 2017-12-16 11:14:09 · 323 阅读 · 0 评论 -
GBDT,XGBoost,RF的区别是什么?
RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagg...原创 2018-04-19 21:35:47 · 586 阅读 · 0 评论 -
LR,SVM,RF的区别是什么?
1、LR和SVM都是分类算法,LR和SVM都是监督学习算法,都是判别模型。2、如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。LR的优缺点:1.适合需要得到一个分类概率的场景2.实现效率较高3.对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决;4.逻辑回归广泛的应用于工业问题上逻辑回归的缺点:1.当特征空间很大时,逻辑回归的性能不是很好;2.不能...原创 2018-04-19 21:36:33 · 7210 阅读 · 1 评论 -
对SVM核函数的理解?
我们已经了解到了SVM处理线性可分的情况,而对于非线性的情况,SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。核函数的本质实际中,我们会经常遇到线性不...原创 2018-04-19 21:37:17 · 3441 阅读 · 3 评论 -
机器学习中的L1和L2正则化项
L1正则化 (1)L1正则化公式L1正则化,英文称作l1-norm,或者称为L1范数。对于线性回归模型,使用L1正则化的模型建模叫做Lasso回归。一般在正则化项之前添加一个系数,这个系数为调整因子α,它决定了我们要如何对模型的复杂的进行“惩罚”。复杂的模型由权重W增大来表现,往往过于复杂的模型也表现为过拟合。L1正则化是指权值向量W中各个元素的绝对值之和。其中我们需要最小化(3)式,来求得合适的...原创 2018-04-19 21:38:40 · 706 阅读 · 0 评论 -
L1和L2正则化的直观理解
这一部分我们可以通过图形解释两个问题(1)为什么L1正则化后可以产生稀疏模型(L1是怎么让系数等于0的)。(2)为什么L2正则化可以防止过拟合。图(1)说明:蓝色的圆圈表示没有经过限制的损失函数在寻找最小值的过程,显示了W的不断迭代变化情况,用等高线的方式表示W变化,W∗是最小值取到的点。(图(1)来源于参考博客3)(1)为什么L1正则化后可以产生稀疏模型(L1是怎么让系数等于0的)? 假设带L1...原创 2018-04-19 21:39:24 · 714 阅读 · 0 评论 -
GBDT和xgboost的差别;
1、模型的scalability,弱分类器除cart外也支持lr和linear2、策略的scalability,可以支持不同的loss functions,来优化效果,只要一、二阶可导即可3、算法的scalability,做了很多细节工作,来优化参数学习和迭代速度,特征压缩技术,bagging学习中的特征抽样,特征选择与阈值分裂的分位方法和并行方法等4、数据的scalability,因为3中的优化...原创 2018-04-19 21:40:03 · 338 阅读 · 0 评论 -
随机森林的随机性体现在哪里?
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林的随机性体现在每颗树的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的。有了这2个随机的保证,随机森林就不会产生过拟合的现象了。 随机森林是用一种随机的方式建立的一个森林,森林是由很多棵决策树组成的,每棵树所分配的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的。...原创 2018-04-19 21:41:13 · 18008 阅读 · 2 评论 -
mRMR
最大相关最小冗余(mRMR),顾名思义,我们可以知道,它不仅考虑到了特征和label之间的相关性,还考虑到了特征和特征之间的相关性。度量标准使用的是互信息(Mutual information)。对于mRMR方法,特征子集与类别的相关性通过各个特征与类别的信息增益的均值来计算,而特征与特征的冗余使用的是特征和特征之间的互信息加和再除以子集中特征个数的平方,因为I(xi,xj)计算了两次。...原创 2018-04-19 21:42:00 · 3914 阅读 · 0 评论 -
【经典】吴恩达《机器学习》课程
如果要推荐《机器学习》的学习课程,那必然首选吴恩达的《机器学习》课程,无论是国内还是国外,这是最火的机器学习入门课程,没有之一。吴恩达老师用易于理解、逻辑清晰的语言对机器学习算法进行介绍,无数新手正是通过这门课程了解了机器学习。吴恩达老师的《机器学习》课程主要有两门,一门是Cousera上的课程,另一门是斯坦福大学的课程CS229: Machine Learning。这两门课程各有侧重点:...原创 2018-09-02 16:50:08 · 30982 阅读 · 2 评论