- 博客(107)
- 收藏
- 关注
转载 R学习日记——线性回归分析
先来介绍线性回归定义,本人较懒,直接引用百度百科的解释。在统计学中,线性回归(LinearRegression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,[引文需要
2017-07-25 14:18:25 1314
转载 Kesci“魔镜杯”风控算法大赛复赛解决方案
决赛答辩第4,获得铜奖代码地址:https://github.com/wepe/PPD_RiskControlCompetition
2017-05-04 16:15:45 2748
转载 风控评分模型
一 概述余额支付的风险识别模型分为两类:(1)盗号交易识别风险 和 (2)盗卡交易识别风险。其中盗卡交易识别风险和余额有关主要是由于骗子注册号码帮盗来的卡,然后进行充值到余额,通过余额支付销赃。(1)和(2)两种针对的情景不一样,采用的特征变量和变量的重要性很大程度是不一样的。针对(1)的问题,主要是看当前交易相对用户之前的行为是否存在异常。针对(2)的问题,主要看用户信息和绑卡的信息匹配
2017-05-04 15:53:31 5524
转载 MobaXterm:“十项全能”的远程终端登录软件
提到SSH、Telnet等远程终端登录,我相信很多人想到的都是PuTTY[注A]。PuTTY足够成熟、小巧、专注核心任务,并且对编码等常见坑的处理并不缺乏,这其实都是优点。但PuTTY在额外功能上就同时缺了一些,例如直接SFTP文件传输、标签页切换等。所以这里推荐一款豪华、全功能的终端软件MobaXterm。它不仅可以像PuTTY一样通过SSH连接Raspberry Pi等开源硬件
2017-03-06 11:10:12 2362
转载 全能型开源远程终端:MobaXterm
破解Securecrt怕中毒,Xshell 用着不爽,Putty太单薄,手头没Mac用不了iterm2。那就试试这个全能开源的终端吧(MobaXterm)!下面就介绍下MobaXterm的主要功能传送门:MobaXterm官网 ,MobaXterm下载windows下支持多标签的终端通过MobaXterm进行远程终端链接,你可以创建 SSH, Telnet, Rlogin,
2017-03-06 10:58:10 1823
转载 中文分词算法总结
什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学
2016-09-18 22:41:11 1077
转载 人脸识别算法-特征脸方法(Eigenface)及python实现
这几天无聊,正好想起来以前谁说有同学做人脸识别,感觉好高大上,所以找来一些基础的人脸识别算法来自己实现一下,正好锻炼一下numpy的使用。特征脸方法基本是将人脸识别推向真正可用的第一种方法,了解一下还是很有必要的。特征脸用到的理论基础PCA我在这里就不说了,百度一大堆,主要讲一下实现步骤和自己在用python实现是发现的问题。这里我所使用的训练图片是YALE的人脸数据库点击打开链接,这里面
2016-09-17 17:20:07 10950 1
转载 【OpenCV】Python人脸检测+人脸提取
[php] view plain copy print?#!/usr/bin/env python import numpy as np import cv2 import cv2.cv as cv from video import create_capture from common import clock, draw_s
2016-09-17 17:18:51 8103 1
转载 人脸识别技术大总结(1):Face Detection & Alignment
原文出处: sciencefans 的博客 搞了一年人脸识别,寻思着记录点什么,于是想写这么个系列,介绍人脸识别的四大块:Face detection, alignment, verification and identification(recognization),本别代表从一张图中识别出人脸位置,把人脸上的特征点定位,人脸校验和人脸识别。(后两者的区别在于,人脸校验是要给你两张脸
2016-09-17 17:16:35 2871
转载 OpenCV学习(35) OpenCV中的PCA算法
PCA算法的基本原理可以参考:http://www.cnblogs.com/mikewolf2002/p/3429711.html 对一副宽p、高q的二维灰度图,要完整表示该图像,需要m = p*q维的向量空间,比如100*100的灰度图像,它的向量空间为100*100=10000。下图是一个3*3的灰度图和表示它的向量表示:该向量为行向量,共9维,用变量表示
2016-09-17 17:15:06 5758 3
转载 Python 之 sklearn 实现 PCA 降维
关于 PCA 算法的讲解文章不胜枚举,这里主要谈一谈 基于 Python 中 sklearn 模块的 PCA 算法实现。Explained Variance 累计贡献率 又名 累计方差贡献率 不要简单理解为 解释方差,它是 PCA 降维维度的重要指标,一般选取累计贡献率在90%左右的维度作为PCA 降维的参考维度。在识别算法的实现过程中,当我们求得某一数据库各类别特征参考维度时,取最大维度
2016-09-17 16:46:04 3004
转载 【C++ STL学习之五】容器set和multiset
一、set和multiset基础set和multiset会根据特定的排序准则,自动将元素进行排序。不同的是后者允许元素重复而前者不允许。需要包含头文件:#include set和multiset都是定义在std空间里的类模板:[cpp] view plain copy print?templatec
2016-08-25 19:43:44 369
转载 bootstrap, boosting, bagging 几种方法的联系
转:http://blog.csdn.net/jlei_apple/article/details/8168856这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的介绍boos
2016-08-19 20:08:10 342
转载 从boost到Adaboost再到GBRT-GBDT-MART
本文是要配合《统计学习方法》才能看懂的,因为中间有些符号和定义是直接使用书本中的 先弄明白以下三个公式:1)Boost(提升法)=加法模型(即基函数的线性组合)+前向分步算法+损失函数2)Adaboost=Boost+损失函数是指数函数(基函数可以任意)3)提升树=Boost+基函数是决策树(损失函数可以任意) 由此可以看出:1)Boos
2016-08-19 16:44:14 671
转载 防止过拟合以及解决过拟合
过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。“一个过配的模型试图连误差(噪音)都去解释(而实际上噪音又是不需要解释的),导致泛化能力比较差,显然就过犹不及了。” 这句话很好的诠释了过拟合产生的原因,但我认为这只是一部分原因,另一个原因是模型本身并不能很好地解释(匹配)数据,也就是说观测到的数据并不是由该模型产生的。“统计学家说:我们让数据自己说话。言下之意就是要摒弃先验概率。而贝叶斯支
2016-08-18 21:53:08 2133
转载 手把手入门神经网络系列(1)_从初等数学的角度初探神经网络
出处:http://blog.csdn.net/longxinchen_ml/article/details/50082873, http://blog.csdn.net/han_xiaoyang/article/details/50100367 1.开场先扔个段子在互联网广告营销中,经常会有这样的对话: 问:你们的人群标签是什么样的? 答:我们是专门为您订制的
2016-08-06 20:07:58 392
转载 浏览器访问网页全过程(补充重要细节)
浏览器访问网页全过程:1, 开打浏览器输入网址,然后回车;2, 浏览器对输入网址的域名进行DNS解析,获取域名的IP地址;(重要细节:浏览器首先要查看DNS缓存和hosts文件,如果这两个地方都没有域名的IP地址,再向网络发起DNS查询)3, 跟域名所在IP地址进行TCP链接,并发起HTTP请求;4, 服务器回应HTTP请求,将所请求资源发回浏览器;5, 重
2016-08-05 11:31:13 1479
转载 一张图看懂DNS域名解析全过程
DNS域名解析是互联网上非常重要的一项服务,上网冲浪(还有人在用这个词吗?)伴随着大量DNS服务来支撑,而对于网站运营来说,DNS域名解析的稳定可靠,意味着更多用户的喜欢,更好的SEO效果和更大的访问流量。我们先了解一下什么是DNS:DNS,就是Domain Name System的缩写,翻译过来就是域名系统,是互联网上作为域名和IP地址相互映射的一个分布式数据库。DNS能够使用户更方便的
2016-08-05 11:28:12 15733 3
转载 TCP为什么需要3次握手与4次挥手
为什么需要“三次握手” 在谢希仁著《计算机网络》第四版中讲“三次握手”的目的是“为了防止已失效的连接请求报文段突然又传送到了服务端,因而产生错误”。在另一部经典的《计算机网络》一书中讲“三次握手”的目的是为了解决“网络中存在延迟的重复分组”的问题。这两种不用的表述其实阐明的是同一个问题。 谢希仁版《计算机网络》中的例子是这样的,“已失效的连接
2016-08-03 10:50:09 281
转载 GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g
2016-08-03 10:48:31 327
转载 朴素贝叶斯分类流程图介绍
1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类
2016-08-03 10:47:48 3060
转载 Trie树
出自http://www.cnblogs.com/huangxincheng/archive/2012/11/25/2788268.html一:概念 下面我们有and,as,at,cn,com这些关键词,那么如何构建trie树呢?从上面的图中,我们或多或少的可以发现一些好玩的特性。 第一:根节点不包含字符,除根节点外的每一个子节点都包含一个
2016-07-29 17:44:56 226
转载 计数排序
出自:http://www.cnblogs.com/hxsyl/p/3214379.html一.概念引入 有作者把计数排序也称为桶排序(各个桶中元素的排序采用计数排序),得到数组C后直接从前往后遍历,输出数组值次数组下标,为0就不输出(或者存入原数组,不稳定),不过笔者认为这种说法不严谨(一个很明显的问题是输出会是双重for循环,不过也有那个意思,叫鸽巢排序也未尝不可
2016-07-27 10:39:09 235
转载 桶排序
在我们生活的这个世界中到处都是被排序过的东东。站队的时候会按照身高排序,考试的名次需要按照分数排序,网上购物的时候会按照价格排序,电子邮箱中的邮件按照时间排序……总之很多东东都需要排序,可以说排序是无处不在。现在我们举个具体的例子来介绍一下排序算法。首先出场的是我们的主人公小哼,上面这个可爱的娃就是啦。期末考试完了老师要将同学们的分数按照从高到低排序。小哼的班上只有5个同学
2016-07-27 10:32:01 259
转载 C++ Vector 用法
在c++中,vector是一个十分有用的容器,下面对这个容器做一下总结。1 基本操作(1)头文件#include.(2)创建vector对象,vector vec;(3)尾部插入数字:vec.push_back(a);(4)使用下标访问元素,cout(5)使用迭代器访问元素.vectorint>::iterator it;for(it=ve
2016-07-26 09:52:29 258
转载 从2-3-4树谈到Red-Black Tree(红黑树)
译者:July。出处:http://blog.csdn.net/v_JULY_v 。 在上一篇文章--从B树、B+树、B*树谈到R 树里已提到2-3-4树,那么本文,咱们就从2-3-4树开始谈起,然后谈至红黑树。因为理解了2-3-4树,红黑树也就没有任何问题了。同时,虽然红黑树在本blog已有过非常详尽的阐述。但个人此后对红黑树又有了不少新的认识,雨打风吹去,已体味
2016-07-21 20:07:36 4720 1
转载 从B树、B+树、B*树谈到R 树
出处:http://blog.csdn.net/v_JULY_v 。第一节、B树、B+树、B*树1.前言:动态查找树主要有:二叉查找树(Binary Search Tree),平衡二叉查找树(Balanced Binary Search Tree),红黑树(Red-Black Tree ),B-tree/B+-tree/ B*-tree (B~Tree)。前三者是典型的二叉
2016-07-21 15:45:15 677
转载 公开密钥机制 算法及公式 例子
Domino的安全机制中用到了公开密钥机制。请你用5分钟的时间看看我这个帖子,你就会明白公开密钥机制的原理和使用方法。几个小数数学中的概念:1、自然数(natural number),用以计量事物的件数或表示事物次序的数。即用数码0,1,2,3,4,……所表示的数 。自然数由0开始 , 一个接一个,组成一个无穷集合。2、一整数被另一整数整除,后者即是前者的因数,如1,2,4都为8的
2016-07-13 20:13:52 4752 2
转载 浅谈算法和数据结构(4):快速排序
原文出处: 寒江独钓 上篇文章介绍了时间复杂度为O(nlgn)的合并排序,本篇文章介绍时间复杂度同样为O(nlgn)但是排序速度比合并排序更快的快速排序(Quick Sort)。快速排序是20世纪科技领域的十大算法之一 ,他由C. A. R. Hoare于1960年提出的一种划分交换排序。快速排序也是一种采用分治法解决问题的一个典型应用。在很多编程语言中,对数组
2016-07-11 20:05:45 392
转载 浅谈算法和数据结构(3):合并排序
原文出处: 寒江独钓 合并排序,顾名思义,就是通过将两个有序的序列合并为一个大的有序的序列的方式来实现排序。合并排序是一种典型的分治算法:首先将序列分为两部分,然后对每一部分进行循环递归的排序,然后逐个将结果进行合并。合并排序最大的优点是它的时间复杂度为O(nlgn),这个是我们之前的选择排序和插入排序所达不到的。他还是一种稳定性排序,也就是相等的元素在序列中的相对位置
2016-07-11 20:04:51 343
转载 浅谈算法和数据结构(2):基本排序算法
原文出处: 寒江独钓本篇开始学习排序算法。排序与我们日常生活中息息相关,比如,我们要从电话簿中找到某个联系人首先会按照姓氏排序、买火车票会按照出发时间或者时长排序、买东西会按照销量或者好评度排序、查找文件会按照修改时间排序等等。在计算机程序设计中,排序和查找也是最基本的算法,很多其他的算法都是以排序算法为基础,在一般的数据处理或分析中,通常第一步就是进行排序,比如说二分查找,首先要对数据进
2016-07-11 20:03:57 327
转载 浅谈算法和数据结构(1):栈和队列
1. 基本概念概念很简单,栈 (Stack)是一种后进先出(last in first off,LIFO)的数据结构,而队列(Queue)则是一种先进先出 (fisrt in first out,FIFO)的结构,如下图:2. 实现现在来看如何实现以上的两个数据结构。在动手之前,Framework Design Guidelines这本书告诉我们,在设计API或
2016-07-11 17:28:26 465
转载 C++ 排序函数 sort(),qsort()的用法
想起来自己天天排序排序,冒泡啊,二分查找啊,结果在STL中就自带了排序函数sort,qsort,总算把自己解脱了~所以自己总结了一下,首先看sort函数见下表: 函数名功能描述sort对给定区间所有元素进行排序stable_sort对给定区间所有元素进行稳定排序partial_sort对给定区间所有元素部分排序
2016-07-11 15:19:35 299
转载 标准C++中的string类的用法总结
相信使用过MFC编程的朋友对CString这个类的印象应该非常深刻吧?的确,MFC中的CString类使用起来真的非常的方便好用。但是如果离开了MFC框架,还有没有这样使用起来非常方便的类呢?答案是肯定的。也许有人会说,即使不用MFC框架,也可以想办法使用MFC中的API,具体的操作方法在本文最后给出操作方法。其实,可能很多人很可能会忽略掉标准C++中string类的使用。标准C++中提供的str
2016-07-11 14:58:48 218
转载 C++转型
c风格的类型转换char * pszString = "hello world!";int* pBuf = (int *)pszString;c风格的类型转换实际上是强迫编译器根据程序员的选择来解释目标对象C++提供了一种新的类型转换运算符,专门用于继承的情形,这种情形在c中并不存在4个类型转换运算符如下:const_cast 通常用来将对象
2016-07-11 10:20:42 244
转载 bootstrap, boosting, bagging 几种方法的联系
转:http://blog.csdn.net/jlei_apple/article/details/8168856这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的
2016-07-07 20:53:26 346
转载 C++模板
模板是C++支持参数化多态的工具,使用模板可以使用户为类或者函数声明一种一般模式,使得类中的某些数据成员或者成员函数的参数、返回值取得任意类型。 模板是一种对类型进行参数化的工具; 通常有两种形式:函数模板和类模板; 函数模板针对仅参数类型不同的函数; 类模板针对仅数据成员和成员函数类型不同的类。 使用模板的目的就是能够让程序员编写与类型无关的代码
2016-07-07 15:41:37 288
转载 机器学习经典书籍
入门书单《数学之美》 PDF作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。《Programming Collective Intelligence》(《集体智慧编程》)PDF作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《数据
2016-06-30 14:51:12 432
转载 SMO
11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for
2016-06-28 16:38:24 643
转载 朴素贝叶斯算法
一. 简单的说贝叶斯定理:贝叶斯、概率分布与机器学习转自http://www.cnblogs.com/LeftNotEasy/archive/2010/09/27/1837163.html贝叶斯定理用数学的方法来解释生活中大家都知道的常识形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的
2016-05-17 17:54:53 1603
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人