自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 [转]论数学在机器学习中的作用

机器学习和计算机视觉都是很多种数学的交汇场。看着不同的理论体系的交汇,对于一个researcher来说,往往是非常exciting的enjoyable的事情。不过,这也代表着要充分了解这个领域并且取得有意义的进展是很艰苦的。Linear Algebra (线性代数) 和 Statistics (统计学) 是最重要和不可缺少的。这代表了Machine Learning中最主...

2014-05-11 10:34:00 135

转载 [转]勒贝格积分的框架与通俗理解

为什么会出现勒贝格积分这个问题等价于勒贝格积分和黎曼积分有什么区别。其实这个区别没有那么玄,反而很好解释。问题的根源在于黎曼积分的定义上。黎曼积分:.黎曼积分是在轴上做的分割,虽然可以分割得很细,但只要被积函数在这个分割区间上的上界和下界的差不能被控制到很小时就有可能使得分割和不唯一。换言之,此时这种奇葩的函数在黎曼积分意义下不可积。这反过来也暗示了黎曼可积时被积函数不能变化...

2014-05-11 10:33:00 1823

转载 [转]浅谈PCA的适用范围

线性代数主要讲矩阵,矩阵就是线性变换,也就是把直线变成直线的几何变换,包括过原点的旋转、镜射、伸缩、推移及其组合。特征向量是对一个线性变换很特殊的向量:只有他们在此变换下可保持方向不变,而对应的特征值就是该向量缩放的比例。最大特征值和对应的特征向量就意味着在该方向上方向不变且缩放比例能达到最大。注意到特征向量天然正交,否则他们在别的特征方向上会发生方向的改变。在此基础上再来理解PCA...

2014-04-20 20:08:00 1248

转载 徐宗本院士讲座《关于大数据研究下的若干问题》摘记

今天早上屁颠屁颠地跑去听了徐宗本院士的:关于大数据研究的若个问题 觉得还不错,由于徐教授横跨数学与管理两方面,所以讲的角度还有深度刚刚好在我的接受范围内。讲座主要从下面三个方面来讲的:1 关于大数据的认识2 大数据研究涉及的科学问题3 他们团队的探索(一)关于大数据的认识大数据炒得很火,但是什么是大数据,跟海量数据有什么区别? 徐教授首先从自己的角度给出大数据的定...

2013-12-04 12:04:00 288

转载 数据挖掘系列文章目录

准备系统性地整理一下数据挖掘&机器学习常见方法,温故而知新,less is more。先列一下初步目录:(每个冒号后面是主要的focus)1 关联规则挖掘:Apriori 算法& FP-tree2 贝叶斯方法:朴素贝叶斯&贝叶斯网络3 组合提升:Boosting&Adaboost,随机森林4 决策树系列:ID3,C4.5 &MA...

2013-11-09 18:02:00 172

转载 麻省理工公开课《算法导论》学习笔记:第一讲

主题:简介课程,渐近概念的大局观,插入排序和归并排序,递归式函数时间分析(递归树方法)教材:《算法导论》收获:很感动地看到算法分析那个log(n)是为什么出现了,更深层还要听第二讲,若不是因为要准备SAS,恨不得马上看。内容:1 何为算法分析? 计算机程序运行性能和存储空间的理论分析,叫算法分析。也就是关注2点:1 性能,就是程序跑得快不快; 2 存储空间,...

2013-10-05 22:15:00 239

转载 验证集,测试集,训练集

这三个名词在机器学习领域的文章中极其常见,但很多人对他们的概念并不是特别清楚,尤其是后两个经常被人混用。Ripley, B.D(1996)在他的经典专著Pattern Recognition and Neural Networks中给出了这三个词的定义。 Training set: A set of examples used for learning, which is ...

2013-07-28 17:21:00 114

转载 大数据时代有感

最近媒体网络,校园,书籍文献到处都充斥着“大数据”“云”“超级计算”,大数据时代在我们没有意识到的时候就静悄悄地走近了我们,谷歌,阿里巴巴,搜狗一系列的公司摩拳擦掌,准备在大数据时代大干一场。维克托的《大数据时代》在留在畅销书籍榜好久了。 那么什么是大数据时代呢?之前一直以为大数据时代是因为数据量变得越来越大,普通PC根本无法支撑,所以有了超级计算,hadoop,...

2013-04-18 18:57:00 122

转载 [转载】我的数据挖掘之路 by wrchow

导读:作者wrchow是浙江大学计算机硕士,通过自己的努力终于拿到了心仪的offer(搜狗Web数据挖掘助理研究员),实现了从事互联网数据挖掘的梦想。他对数据挖掘这个行业的兴趣,以及为了进入这个行业所做的准备和努力,非常值得想进入这一行业的在校生或朋友们参考。我的数据挖掘之路由于本科专业是生物信息(可以理解为生物统计学或者与基因数据相关的数据挖掘学科), 所以那时已经开始接触数据...

2012-10-22 17:22:00 130

转载 《这些道理没有人告诉过你》摘记

几个月前找实习的时候囫囵吞枣地看了一遍《这些道理没有人告诉过你》,觉得讲得还不错,现在重看,顺便写一下读书笔记。1 择业主要从四个方面进行选择:行业,职业,公司,薪资,而不是某个具体职业。2关于大学规划的反思:作者以一个过来人的角度,回眸并得到经验,大学规划应该:(1)打造自己的通才本领:越是知名企业越看重通才能力,通才包括1 英语口语水平,尤其是实用口语的练习;2 计算机操...

2012-10-22 17:19:00 96

转载 交叉验证[转]

交叉验证(Cross validation),有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize),交叉验证一般要尽量满足:...

2012-10-07 08:55:00 83

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除