HappyAngel19921027-CSDN博客

转载 LR VS SVM VS RF

LR 与SVM不同1.logistic regression适合需要得到一个分类概率的场景，SVM则没有分类概率2.LR其实同样可以使用kernel，但是LR没有support vector在计算复杂度上会高出很多。如果样本量很大并且需要的是一个复杂模型，那么建议SVM3. 如果样本比较少，模型又比较复杂。那么建议svm，它有一套比较好的解构风险最小化理论的

2017-10-12 13:34:14 1370

转载机器学习算法比较

本文主要回顾下几个常用算法的适应场景及其优缺点！（提示：部分内容摘自网络）。机器学习算法太多了，分类、回归、聚类、推荐、图像识别领域等等，要想找到一个合适算法真的不容易，所以在实际应用中，我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法，诸如SVM，GBDT，Adaboost，现在深度学习很火热，神经网络也是一个不错的选择。假如你在乎精度（accuracy）的

2017-10-11 22:02:13 468

转载 SVM参数详解

svm参数说明----------------------如果你要输出类的概率，一定要有-b参数svm-train training_set_file model_filesvm-predict test_file model_fileoutput_file自动脚本：python easy.py train_data test_data自动选择最优参数，自动

2017-10-11 21:52:15 2311

转载深度学习网络卷积在GPU上的优化

雷锋网(搜索“雷锋网”公众号关注)按：本文转载自英伟达NVIDIA企业解决方案公众号。赵开勇，香港浸会大学计算机系异构计算实验室PhD Candidate，长期从事高性能计算领域研究，在CPU、GPU异构计算方面有多年的研究经验。赵开勇先生组织参与多个科研单位和高性能用户的高性能项目研发，曾担任浪潮GPU高性能计算顾问，曾多次担任NVidia中国CUDA比赛评委。他还曾经组织出版《GPU高性能运

2017-09-23 22:07:08 1262

翻译从决策树到RF，以及boosting Adaboost到GBDT算感悟

一、原因：准备学习一下机器学习中基于树模型的分类与回归算法，变看了很多的算法介绍与论文，同时也找了一些现有的库去运行。最后又设计到级联式回归，自从看了GBDT后才发现其实就是GBDT的一种变种算法。因此一路下来看了不少算法，明白了它们之间的基本关系与算法的简单原理。在此记录一下，以后也方便的查看。二、决策树大类算法：1.决策树：决策树是一种常见的分类与回归模型，主要呈树

2017-09-23 22:01:19 480

转载 C++多态

1. 用virtual关键字申明的函数叫做虚函数，虚函数肯定是类的成员函数。2. 存在虚函数的类都有一个一维的虚函数表叫做虚表。类的对象有一个指向虚表开始的虚指针。虚表是和类对应的，虚表指针是和对象对应的。3. 多态性是一个接口多种实现，是面向对象的核心。分为类的多态性和函数的多态性。4. 多态用虚函数来实现，结合动态绑定。5. 纯虚函数是虚函数再加上= 0。6. 抽象类是指包

2017-09-23 21:32:49 169

转载算法工程师面试

算法工程师面试必备成为算法工程师，应该学习哪些东西首先说算法工程师有几个方向：NLP，推荐，CV，深度学习，然后结合公司业务做得内容各不相同传统机器学习算法：感知机，SVM，LR，softmax，Kmeans，DBSCAN，决策树（CART，ID3，C45），GBDT，RF，Adaboost，xgboost，EM，BP神经网络，朴素贝叶斯，LDA，PCA，核函数，最大熵等

2017-09-17 13:59:18 4719 1

转载 SCI期刊图像处理

刊名简称期刊名称分区影响因子INFORM PROCESSLETTINFORMATION PROCESSING LETTERS40.453J VLSI SIGPROC SYSTJOURNAL OF VLSI SIGNALPROCESSING SYSTEMS FO

2017-09-11 17:08:49 1577

转载 SCI 投稿Cover letter模板大全 (2012-01-12 16:20:30)转载▼ 标签： e-mail 稿号意见修改稿信件杂谈分类： technology 1.第一次投稿Cov

SCI 投稿Cover letter模板大全 (2012-01-12 16:20:30)转载▼标签： e-mail 稿号意见修改稿信件杂谈分类： technology1.第一次投稿Cover letter：主要任务是介绍文章主要创新以及声明没有一稿多投

2017-09-06 21:44:40 1918

转载 SCI 图像处理机器学习

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE SCI IF=4.378ACM TRANSACTIONS ON GRAPHICS SCI IF=3.619IEEE TRANSACTIONS ON MEDICAL IMAGING SCI IF=3.54INTERNATIONAL JOURNAL OF

2017-09-05 11:26:26 1036

转载神经网络的激活函数sigmoid RELU

日常 coding 中，我们会很自然的使用一些激活函数，比如：sigmoid、ReLU等等。不过好像忘了问自己一(n)件事：为什么需要激活函数？激活函数都有哪些？都长什么样？有哪些优缺点？怎么选用激活函数？本文正是基于这些问题展开的，欢迎批评指正！(此图并没有什么卵用，纯属为了装x …)Why use activation functions?激活函数通

2017-09-04 11:34:41 1064

转载机器学习常见模型分析与比较

朴素贝叶斯：　　有以下几个地方需要注意：　　1. 如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。　　2. 计算公式如下：　　　　其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法，而由朴素贝叶斯的前提假设可知， = ，因

2017-09-03 15:43:09 29853 2

转载 xGBoost GBDT

作者：wepon链接：https://www.zhihu.com/question/41354392/answer/98658997来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？看了陈天奇大神的文章和slides，略抒己见，没有面面俱到，

2017-09-03 15:29:33 211

转载 L0和L1:正则化

1、概念L0正则化的值是模型参数中非零参数的个数。L1正则化表示各个参数绝对值之和。L2正则化标识各个参数的平方的和的开方值。2、先讨论几个问题：1）实现参数的稀疏有什么好处吗？一个好处是可以简化模型，避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数起作用，那么可以对训练数据可以预测的很好，但是对测试数据就只能呵呵了

2017-09-02 22:46:04 1216

转载 hash冲突解决

虽然我们不希望发生冲突，但实际上发生冲突的可能性仍是存在的。当关键字值域远大于哈希表的长度，而且事先并不知道关键字的具体取值时。冲突就难免会发生。另外，当关键字的实际取值大于哈希表的长度时，而且表中已装满了记录，如果插入一个新记录，不仅发生冲突，而且还会发生溢出。因此，处理冲突和溢出是哈希技术中的两个重要问题。1、开放定址法　用开放定址法解决冲突的做法是：当冲突发生时，

2017-09-02 22:18:09 169

转载 PRC 和ROC

一、指标定义准确率：策略命中的所有相关订单/策略命中的所有订单召回率：策略命中的所有相关订单/所有的相关订单（包括策略未被命中的） F1-score(F1-分数)：2×准确率×召回率/（准确率+召回率），是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0。（详细介绍见下） ROC:ROC曲线的横坐标为false positive rate（FPR,假正率），纵坐标为true

2017-09-02 21:47:18 6338

转载 C++

常见C++面试题及基本知识点总结标签： C++面试题C++基本知识点2016-10-17 14:03 510人阅读评论(0) 收藏举报分类：c++基础温习（6）目录(?)[+]文章出处：http://www.cnblogs.com/LUO77/p/5771237.html1. 结构体和共同体的区别。

2017-08-30 22:53:34 247

转载图像算法

图像基础知识：1. 常用的图像空间。2. 简述你熟悉的聚类算法并说明其优缺点。3. 请描述以下任一概念：SIFT/SURF LDA/PCA4. 请说出使用过的分类器和实现原理。5. Random Forest的随机性表现在哪里。6. Graph-cut的基本原理和应用。7. GMM的基本原理和应用。8. 用具体算法举例说明监督学习和

2017-08-29 23:03:56 711

转载 SURF 与 SIFT

转载▼[转载]SURF 与 SIFT共同点：SIFT/SURF为了实现不同图像中相同场景的匹配，主要包括三个步骤：1、尺度空间的建立；2、特征点的提取；3、利用特征点周围邻域的信息生成特征描述子4、特征点匹配。从博客上看到一片文章，http://blog.csdn.net/cy513/archi

2017-08-29 22:16:21 380

转载图像处理图像平滑、滤波、卷积

1.图像卷积（模板）(1).使用模板处理图像相关概念：模板：矩阵方块，其数学含义是一种卷积运算。卷积运算：可看作是加权求和的过程，使用到的图像区域中的每个像素分别于卷积核(权矩阵)的每个元素对应相乘，所有乘积之和作为区域中心像素的新值。卷积核：卷积时使用到的权用一个矩阵表示，该矩阵是一个权矩阵。卷积

2017-08-29 18:01:46 1316

转载 SVM防止过拟合

过拟合（Overfitting）表现为在训练数据上模型的预测很准，在未知数据上预测很差。过拟合主要是因为训练数据中的异常点，这些点严重偏离正常位置。我们知道，决定SVM最优分类超平面的恰恰是那些占少数的支持向量，如果支持向量中碰巧存在异常点，那么我们傻傻地让SVM去拟合这样的数据，最后的超平面就不是最优的。如图1所示，深红色线表示我们希望训练得到的最优分类超平面，黑色虚线表示由于过拟合得到

2017-08-28 22:27:37 4782

转载优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)

本文介绍常见的一阶数值优化算法，这些方法在现代神经网络框架(tensorflow, caffe, torch)中已经是标准配置。问题设系统参数为ω。对于样本i，其代价函数为Qi(ω)。在n个样本组成的训练集上，其整体代价函数为： Q(ω)=∑i=1nQi(ω)要求ω使得上式最小，由于没有闭式解，需要通过近似迭代逐步逼近。基础一阶优化GDG

2017-08-26 18:39:06 1696

转载 word2vec

简介Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为 K 维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作，比如聚类、找同义词、词性分析等等。如果换个思路，把词当做特征，那么Word2v

2017-08-26 18:13:42 196

转载 LIBSVM和LIBLINEAR的优化

前面介绍了LIBSVM和LIBLINEAR的优化算法，下面简单总结一下不同算法的应用场景吧：所有线性问题都是用LIBLINEAR，而不要使用LIBSVM。LIBSVM中的不同算法，如C-SVM和nu-SVM在模型和求解上并没有本质的区别，只是做了一个参数的变换，所以选择自己习惯的就好。LIBLINEAR的优化算法主要分为两大类，即求解原问题(primal problem)和对偶

2017-08-20 22:05:49 649

转载 Deep Learning

目录：一、概述二、背景三、人脑视觉机理四、关于特征4.1、特征表示的粒度4.2、初级（浅层）特征表示4.3、结构性特征表示4.4、需要有多少个特征？五、Deep Learning的基本思想六、浅层学习（Shallow Learning）和深度学习（Deep Learning）七、Deep learn

2017-08-20 21:59:35 364

转载 SVM与LR的区别

在大大小小的面试过程中，多次被问及这个问题：“请说一下逻辑回归（LR）和支持向量机（SVM）之间的相同点和不同点”。第一次被问到这个问题的时候，含含糊糊地说了一些，大多不在点子上，后来被问得多了，慢慢也就理解得更清楚了，所以现在整理一下，希望对以后面试机器学习方向的同学有所帮助（至少可以瞎扯几句，而不至于哑口无言ha(*＾-＾*)）。（1）为什么将LR和SVM放在一起来进行比较？回答这个问题

2017-08-20 21:48:23 677

转载 Linux命令

介绍：1 开头程序必须以下面的行开始（必须方在文件的第一行）：#!/bin/sh符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我们使用/bin/sh来执行程序。当编写脚本完成时，如果要执行该脚本，还必须使其可执行。要使编写脚本可执行：编译 chmod +x filename 这样才能用./filename 来运行2 注释在进行shell编程

2017-07-30 21:13:14 110

转载 ImgNet Top-5

在看一些深度学习图像分类文献的时候，经常提到ImageNet Top-5错误率降到了15%。它是什么意思呢？top1就是你预测的label取最后概率向量里面最大的那一个作为预测结果，你的预测结果中概率最大的那个类必须是正确类别才算预测正确。而top5就是最后概率向量最大的前五名中出现了正确概率即为预测正确。ImageNet 项目ImageNe

2017-07-30 16:48:30 1033

转载 sudo

一、APT的使用（Ubuntu Linux软件包管理工具一）apt-cache search # ------(package 搜索包)apt-cache show #------(package 获取包的相关信息，如说明、大小、版本等)sudo apt-get install # ------(package 安装包)sudo apt-get install # -----(pa

2017-07-30 16:19:54 207

原创 Linux面试题

1. 假设定期维护和备份文件是你的日常工作任务之一。备份的文件以压缩的形式保存。现在你需要查看两个月前备份的一份log文件。那么在不解压的情况下如何才能查看这份文件的内容？答：使用zcat命令。 $ zcat f phpshe112.4.tar.gz2. 如何需要跟踪系统发生的事件？答：使用syslogd守护进程。syslogd在跟踪系统事件方面非常有用，并可以将其

2017-07-13 22:05:18 301

转载 Linux

显示目录和文件的命令 Ls：用于查看所有文件夹的命令。 Dir：用于显示指定文件夹和目录的命令 Tree：以树状图列出目录内容 Du：显示目录或文件大小修改目录，文件权限和属主及数组命令 Chmod：用于改变指定文件的权限命令。 Chown：用于改变文件拥有属性的命令。 Chgrp：用于改变文件群

2017-07-13 22:02:07 306

翻译 Linux命令大全——面试

1. finger：查询用户信息，也能查看默认的用户环境。2. ftp：标准的文件传输协议的用户接口，是在网络上传输文件最简单有效的方法。3. host：用于DNS查询。4. hostname：用于显示或设置系统的主机名。5. ifconfig：用于配置网卡接口。（可以使用down或up参数来禁用或启用某个网卡接口）6. mail：发送和接收邮件。7. netstat：显示

2017-07-13 21:38:59 204

原创 JVM内存泄露与内存溢出的区别

内存溢出 out of memory，是指程序在申请内存时，没有足够的内存空间供其使用，出现out of memory；比如申请了一个integer,但给它存了long才能存下的数，那就是内存溢出。内存泄露 memory leak，是指程序在申请内存后，无法释放已申请的内存空间，一次内存泄露危害可以忽略，但内存泄露堆积后果很严重，无论多少内存,迟早会被占光。总结：memory le

2017-07-13 21:36:29 969

转载 C++中指针与引用的区别

指针和引用在C++中很常用，但是对于它们之间的区别很多初学者都不是太熟悉，下面来谈谈他们2者之间的区别和用法。1.指针和引用的定义和性质区别：(1)指针：指针是一个变量，只不过这个变量存储的是一个地址，指向内存的一个存储单元；而引用跟原来的变量实质上是同一个东西，只不过是原变量的一个别名而已。如：int a=1;int *p=&a;int a=1;int &b=a;

2017-07-13 21:33:13 120

翻译 Java String.split()用法小结

在java.lang包中有String.split()方法,返回是一个数组我在应用中用到一些,给大家总结一下,仅供大家参考:1、如果用“.”作为分隔的话,必须是如下写法,String.split("\\."),这样才能正确的分隔开,不能用String.split(".");2、如果用“|”作为分隔的话,必须是如下写法,String.split("\\|"),这样才能正确的分

2017-05-03 16:19:00 159

转载 cuda并行运算

Cuda并行编程学习时候需注意的一些基本概念1、Cuda的编程风格：spmp（单程序多数据）的并行编程风格。2、在多GPU下，cudaMemcpy()不能用于GPU之间的数据复制3、cudaMemcpy（）传输的数据类型有四种：（1）主机-主机（2）主机-设备（3）设备-主机（4）设备-

2017-03-27 21:35:35 626

u010398562的博客