- 博客(63)
- 收藏
- 关注
转载 机器学习中的范数规则化之(二)核范数与规则项参数选择
上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 三、核范数 核范数||W||*是指矩阵奇异值的和,英文称呼叫Nuclear Norm。这个相对于上面火热的L1和L2来说,可能大家就会陌生点。那它是干嘛用的呢?霸气登场:约束Low-Rank(低秩)
2014-11-28 23:14:43 637
转载 机器学习中的范数规则化之(一)L0、L1与L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 监督机器学习问题无非就是“minimizeyour error whil
2014-11-28 23:11:39 521
转载 scipy: 科学计算
Scipy:高端科学计算作者:Adrien Chauve, Andre Espaze, Emmanuelle Gouillart, Gaël Varoquaux, Ralf Gommers翻译自:scipy lecture notes译者表示最后部分没怎么看懂,此文档维护中……Scipyscipy包包含致力于科学计算中常见问题的各个工具箱。它的不同子模块
2014-10-13 20:40:02 1302
转载 Python中的random模块
Python中的random模块用于生成随机数。下面介绍一下random模块中最常用的几个函数。random.randomrandom.random()用于生成一个0到1的随机符点数: 0 random.uniform random.uniform的函数原型为:random.uniform(a, b),用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一
2014-10-13 15:34:27 500
转载 Discover Feature Engineering, How to Engineer Features and How to Get Good at It
Feature engineering is an informal topic, but one that is absolutely known and agreed to be key to success in applied machine learning.In creating this guide I went wide and deep and synthesized a
2014-10-10 22:41:32 917
转载 Building a Production Machine Learning Infrastructure
Building a Production Machine Learning Infrastructureby Jasonb on October 8, 2014 in big data, Industrial Machine Learning748974Midwest.io is was a conference in
2014-10-10 22:40:17 661
转载 准确率与召回率
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式: 召回率(Recall) =
2014-10-06 14:00:15 548
转载 快速入门:十分钟学会Python
初试牛刀假设你希望学习Python这门语言,却苦于找不到一个简短而全面的入门教程。那么本教程将花费十分钟的时间带你走入Python的大门。本文的内容介于教程(Toturial)和速查手册(CheatSheet)之间,因此只会包含一些基本概念。很显然,如果你希望真正学好一门语言,你还是需要亲自动手实践的。在此,我会假定你已经有了一定的编程基础,因此我会跳过大部分非Python语言的相关内容。
2014-09-01 14:39:22 485
转载 快速入门:十分钟学会Python
初试牛刀假设你希望学习Python这门语言,却苦于找不到一个简短而全面的入门教程。那么本教程将花费十分钟的时间带你走入Python的大门。本文的内容介于教程(Toturial)和速查手册(CheatSheet)之间,因此只会包含一些基本概念。很显然,如果你希望真正学好一门语言,你还是需要亲自动手实践的。在此,我会假定你已经有了一定的编程基础,因此我会跳过大部分非Python语言的相关内容。
2014-09-01 14:38:17 492
转载 numpy.nonzero
numpy.nonzero(a)[source]Return the indices of the elements that are non-zero.Returns a tuple of arrays, one for each dimension of a, containing the indices of the non-zero elements in that dimensi
2014-08-11 17:14:12 760
转载 SMO序列最小最优化算法
首先回顾一下SVM模型的数学表达,即svm的对偶问题:mina12∑i=1N∑j=1NaiajyiyjK(xi,xj)−∑i=1Nais.t.∑i=1Naiyi=00≤ai≤C,i=1,2,⋅⋅⋅,N选择一个 a∗ 的正分量 0a∗jC , 计算(或者通过所有解求平均值):b∗=yj−∑i=1Na∗iyiK(xi⋅xj)决策函数为f(x)=sign(∑i
2014-05-25 19:55:07 2835
转载 Python图表绘制:matplotlib绘图库入门
matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且Gallery页面中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定。在Linux下比较著名的数据图工具还有g
2014-05-22 21:07:17 894
转载 python的lambda函数介绍
今天在论坛上看到有人问的一个关于如何从一个python的字典中取到value中最大的那个key值,里面用到了 lambda 函数,今天那就大致介绍下 lambda 是个什么东东。 python支持创建一种匿名的函数(一种没绑定名字的函数),这种函数叫做lambda,这个和fp(函数编程)里面的lambda的含义并不是完全一致,下面这段代码将展示 lambda 和普通函数之间的区别>
2014-05-21 21:43:33 682
转载 semi-supervised learning
最近的一段时间一直在学习半监督学习算法,目前,国内的南京大学周志华老师是这方面的泰斗,写了很多这方面牛的文章,可以参考一下他的主页:http://cs.nju.edu.cn/zhouzh/。在国内的学术界周老师一直是我比较钦佩的人之一。下面贴出来的文章出自周老师之手,通俗易懂。受益匪浅。。1. 引言 在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行
2014-05-19 11:04:26 612
转载 用Numpy扩充数组元素之repeat和tile
用repeat和tile扩充数组元素,例如,In [32]: a=np.arange(10)In [33]: aOut[33]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])In [34]: a.repeat(5)Out[34]:array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2
2014-05-16 17:15:32 608
转载 numpy函数:[9]zeros创建0矩阵
经常用到一些0数组,就是元素均为0的数组。那么怎么在python中创建0数组呢?我们用到了zeros函数,下面看看这个函数的用法:首先要引入一下numpy这个包试着创建一个一维数组,只使用一个参数就可以了默认情况下,zeros创建的数组是浮点型的,假如使用其他类型,可以设置dtype参数假如我们想要创建一个二维数组,我一开始以为是用下面这个方法,
2014-05-16 14:35:19 6753
转载 Latent Dirichlet Allocation(LDA)
变量:w表示词,z表示主题,w=(w1,w2,⋯,wN)表示文档,语料库D=(w1,⋯,wM),V表示所有单词的个数(固定值),N表示一个文档中的词数(随机变量),M是语料库中的文档数(固定值),k是主题的个数(预先给定,固定值)。 在说明LDA模型之前,先介绍几个简单一些的模型。1.Unigram model:文档w=(w1,w2,⋯,wN),用p(wn)
2014-05-05 20:15:08 2497
转载 利用中文数据跑Google开源项目word2vec
一直听说word2vec在处理词与词的相似度的问题上效果十分好,最近自己也上手跑了跑Google开源的代码(https://code.google.com/p/word2vec/)。1、语料首先准备数据:采用网上博客上推荐的全网新闻数据(SogouCA),大小为2.1G。 从ftp上下载数据包SogouCA.tar.gz:1 wget ftp://ftp.l
2014-05-05 17:17:25 1215
转载 python之matplotlib学习
学习《matplotlib for python Developers》笔记python中使用matplotlib通常有以下三种方式1,通过使用pyplot模块,提供类似Matlab命令的方式。2,pylab模块,集合Matplotlib和Numpy使之接近Matlab(不被作者提倡)3,面向对象方法,以python的方式使用,更加的pythonic。三者之
2014-04-29 20:24:03 945
转载 Andrew ng清华报告听后感
Andrew ng今天来清华作报告,我就几点重要的内容,谈谈理解和想法。 1)特征表示的粒度 学习算法在一个什么粒度上的特征表示,才有能发挥作用?就一个图片来说,像素级的特征根本没有价值,无法进行摩托车正例和负例的区分,而如果特征是一个具有结构性(或者说有含义)的时候,比如是否具有handlebars,是否具有wheel,就很容易把正例和负例区分,学习算法才能发挥
2014-04-25 11:00:58 665
原创 算法——数学
①高数:导数微分,不定积分和积分;②概率论与数理统计:概率分布,期望方差,中心极限定理,二项/正态分布,参数估计,假设检验,方差/回归分析;③矩阵:变换,分解(QR分解,奇异值分解),特征值;④凸优化,优化,对偶,剃度下降。
2014-04-19 19:23:47 543
转载 Implementing a Principal Component Analysis (PCA) in Python step by step
Tweet In this article I want to explain how a Principal Component Analysis (PCA) works by implementing it in Python step by step. At the end we will compare the results to the more convenient Py
2014-04-19 10:59:56 1059
转载 Learning Theory
机器学习理论帝国崛起,大数定理军团功不可没,称之为军团毫不夸张,在前军先锋强大数定理和副将弱大数定理后面,是铠甲上刻着“Concentration of Measure”的古老印记的战士们,不妨暂且忽略他们之间乱七八糟的“血缘”关系,而罗列一些名字:Chebyshev 不等式、 Markov 不等式、 Bernstein 不等式、 Hoeffding 不等式、 McDiarmid 不等
2014-04-19 09:43:12 554
转载 Learning Theory
我想如今机器学习 (Machine Learning) 的重要性(不论是在学术界还是在工业界)已经不用再多强调了,比如说 2010 年的图灵奖得主 Leslie Valiant 就是学习理论 (Learning Theory) 的一位先驱大牛,正是他提出了“可能近似正确” (Probably Approximately Correct, PAC) 模型——每次念一念 PAC 的中文翻译就觉得好
2014-04-18 20:28:54 738
转载 Python关键字yield详解以及Iterable 和Iterator区别
迭代器(Iterator)为了理解yield是什么,首先要明白生成器(generator)是什么,在讲生成器之前先说说迭代器(iterator),当创建一个列表(list)时,你可以逐个的读取每一项,这就叫做迭代(iteration)。mylist = [ 1 , 2 , 3 ] for i in mylist : print (i) 1 2 3
2014-04-08 18:02:10 748
转载 Python yield 使用浅析
您可能听说过,带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ?我们先抛开 generator,以一个常见的编程题目来展示 yield 的概念。如何生成斐波那契數列斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个和第二个数外,任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前
2014-04-07 21:26:35 374
转载 奇异值分解SVD应用——LSI
潜在语义索引(Latent Semantic Indexing)是一个严重依赖于SVD的算法,本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。————————————在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种分类问题都可用通过
2014-04-06 10:16:15 558
转载 人工智能书籍
第一个是“人工智能的历史”(History of Artificial Intelligence), 顺着 AI 发展时间线娓娓道来,中间穿插无数牛人故事,且一波三折大气磅礴,可谓"事实比想象更令人惊讶"。人工智能始于哲学思辨,中间经历了一个没有心理学(尤其是认知神经科学的)的帮助的阶段,仅通过牛人对人类思维的外在表现的归纳、内省,以及数学工具进行探索,其间最令人激动的是 Herber
2014-03-29 09:37:36 833
转载 VC维
有关于VC维可以在很多机器学习的理论中见到,它是一个重要的概念。在读《神经网络原理》的时候对一个实例不是很明白,通过这段时间观看斯坦福的机器学习公开课及相关补充材料,又参考了一些网络上的资料(主要是这篇,不过个人感觉仍然没有抓住重点),重新思考了一下,终于理解了这个定义所要传达的思想。 先要介绍分散(shatter)的概念:对于一个给定集合S={x1, ... ,xd},如果一个假设类H
2014-03-29 09:13:45 596
原创 PageRank
PageRank生成的Web网页排序是静态的,这是指每个网页的排序值是通过离线计算得到的,并且该值与查询无关。也就是说,网页排序值的计算纯粹基于Web上现有链接,而不考虑任何用户的任何查询。知识背景:马尔可夫链,因俄罗斯数学家安德烈·马尔可夫(俄语:Андрей Андреевич Марков)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识
2014-03-12 16:49:48 1430
转载 C++ ofstream和ifstream详细用法
ofstream是从内存到硬盘,ifstream是从硬盘到内存,其实所谓的流缓冲就是内存空间; 在C++中,有一个stream这个类,所有的I/O都以这个“流”类为基础的,包括我们要认识的文件I/O,stream这个类有两个重要的运算符: 1、插入器( 向流输出数据。比如说系统有一个默认的标准输出流(cout),一般情况下就是指的显示器,所以,cout 2、
2014-03-04 19:21:14 417
原创 机器学习小结
1. 认真学习一个机器学习工具箱(如R, SHOGUN,Weka, scikit-learn)。2. 认真分析一个机器学习数据集。3. 深入了解一个机器学习算法。4. 亲自实现一个机器学习算法。
2014-03-04 16:56:42 663 1
转载 机器学习常用工具
Support Vector MachineSVMlightAn implementation of Vapnik's Support Vector MachineLIBSVMA Library for Support Vector MachinesDecision TreeC4.5The "classic" decision-tree tool
2014-03-04 16:54:39 821
转载 SQLite入门与分析(五)---Page Cache之并发控制
写在前面:本节主要谈谈SQLite的锁机制,SQLite是基于锁来实现并发控制的,所以本节的内容实际上是属于事务处理的,但是SQLite的锁机制实现非常的简单而巧妙,所以在这里单独讨论一下。如果真正理解了它,对整个事务的实现也就理解了。而要真正理解SQLite的锁机制,最好方法就是阅读SQLite的源码,所以在阅读本文时,最好能结合源码。SQLite的锁机制很巧妙,尽管在本节中的源码中,我写了很多
2014-03-01 14:11:17 790
转载 SQLite Version3.3.6源代码文件结构
Version 3.3.6源代码文件结构 ——整理:hustcat 2009-2-19文件名称大小byte备注API部分main.c35414SQLite Library的大部分接口
2014-03-01 13:47:25 574
转载 SQLite入门与分析(四)---Page Cache之事务处理(3)
写在前面:由于内容较多,所以断续没有写完的内容。11、删除日志文件(Deleting The Rollback Journal)一旦更改写入设备,日志文件将会被删除,这是事务真正提交的时刻。如果在这之前系统发生崩溃,就会进行恢复处理,使得数据库和没发生改变一样;如果在这之后系统发生崩溃,表明所有的更改都已经写入磁盘。SQLite就是根据日志存在情况决定是否对数据库进行恢复处理。
2014-03-01 13:45:15 119
转载 SQLite入门与分析(四)---Page Cache之事务处理(2)
写在前面:个人认为pager层是SQLite实现最为核心的模块,它具有四大功能:I/O,页面缓存,并发控制和日志恢复。而这些功能不仅是上层Btree的基础,而且对系统的性能和健壮性有关至关重要的影响。其中并发控制和日志恢复是事务处理实现的基础。SQLite并发控制的机制非常简单——封锁机制;别外,它的查询优化机制也非常简单——基于索引。这一切使得整个SQLite的实现变得简单,SQLite变得很小
2014-03-01 13:39:30 630
转载 SQLite入门与分析(四)---Page Cache之事务处理(1)
写在前面:从本章开始,将对SQLite的每个模块进行讨论。讨论的顺序按照我阅读SQLite的顺序来进行,由于项目的需要,以及时间关系,不能给出一个完整的计划,但是我会先讨论我认为比较重要的内容。本节讨论SQLite的事务处理技术,事务处理是DBMS中最关键的技术,对SQLite也一样,它涉及到并发控制,以及故障恢复,由于内容较多,分为两节。好了,下面进入正题。 本节通过一个具体的例子来分析
2014-03-01 13:30:27 634
转载 SQLite入门与分析(三)---内核概述(2)
写在前面:本节是前一节内容的后续部分,这两节都是从全局的角度SQLite内核各个模块的设计和功能。只有从全局上把握SQLite,才会更容易的理解SQLite的实现。SQLite采用了层次化,模块化的设计,而这些使得它的可扩展性和可移植性非常强。而且SQLite的架构与通用DBMS的结构差别不是很大,所以它对于理解通用DBMS具有重要意义。好了,下面我们开始讨论SQLite剩余的两部分:Back-e
2014-03-01 13:11:38 767
转载 SQLite入门与分析(三)---内核概述(1)
写在前面:从本章开始,我们开始进入SQLite的内核。为了能更好的理解SQLite,我先从总的结构上讨论一下内核,从全局把握SQLite很重要。SQLite的内核实现不是很难,但是也不是很简单。总的来说分为三个部分,本章主要讨论虚拟机(Virtual Machine),但是这里只是从原理上概述,不会太多的涉及实际代码。但是概述完内核之后会仔细讨论源代码的。好了,下面我们来讨论虚拟机(VM)。
2014-03-01 10:08:52 509
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人