机器学习
文章平均质量分 77
bestlinjiayin
机器学习+数据挖掘
展开
-
使用sklearn做单机特征工程
使用sklearn做单机特征工程目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter转载 2017-09-16 10:54:00 · 445 阅读 · 0 评论 -
SVD几何分析
[source url] http://www.ams.org/samplings/feature-column/fcarc-svdWe Recommend a Singular Value DecompositionIn this article, we will offer a geometric explanation of singular value decompositio转载 2014-04-17 22:00:03 · 749 阅读 · 0 评论 -
Sparse Coding
Sparse Coding Sparse coding is a class of unsupervised methods for learning sets of over-complete bases to represent data efficiently. The aim of sparse coding is to find a set of basis vectors su转载 2014-04-05 00:14:38 · 1185 阅读 · 0 评论 -
Deep Learning论文笔记之(一)K-means特征学习
K-means特征学习转自:http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样。所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察。更好的还可以放到博客上面与大家交流。因为基础有限,转载 2014-04-01 10:21:48 · 847 阅读 · 0 评论 -
Latent semantic analysis note(LSA)
1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文转载 2014-04-17 16:43:46 · 666 阅读 · 0 评论 -
SVM&SVR
作者:keith本文参考了JULY 的三层SVM讲解网址http://blog.csdn.net/v_july_v/article/details/7624837#comments还有jerrylead的smo算法实现网址http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.htmlleo zhang的svm学习网址转载 2014-04-16 20:42:55 · 993 阅读 · 0 评论 -
算法杂货铺
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性转载 2014-04-01 10:10:17 · 2727 阅读 · 1 评论 -
Whitening&PCA
WhiteningContents[hide]1Introduction22D example3ZCA Whitening4RegularizatonIntroductionWe have used PCA to reduce the dimension of the data. There is a closely转载 2014-04-03 16:32:12 · 1443 阅读 · 0 评论 -
机器学习算法之旅
机器学习算法之旅41本文由 伯乐在线 - 大飞 翻译自 machinelearningmastery。未经许可,禁止转载!欢迎加入技术翻译小组,或分享原创到伯乐头条。在理解了我们需要解决的机器学习问题之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。机器学习转载 2014-07-24 16:56:14 · 985 阅读 · 0 评论 -
如何在Kaggle中高效搜索数据集?
雷锋网(公众号:雷锋网) AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作?雷锋网 AI科技评论将文章编译整理如下:目前,在Kaggle上有成千上万的数据集,而且每天都会有新的增加。虽说Ka转载 2017-09-16 10:48:14 · 7761 阅读 · 1 评论 -
An annotated path to start with Machine Learning
Machine Learning is becoming more and more widespread and, day after day, new computer scientists and engineers begin their long jump into this wonderful world. Unfortunately, the number of theories转载 2017-09-16 10:27:14 · 634 阅读 · 0 评论 -
机器学习的入门“秘籍”
由于人工智能的发展,机器学习越来越受到大家的追捧。很多新的计算机科学家和工程师开始跨入机器学习这个美好的世界。不幸的是,理论,算法,应用,论文,书籍,视频等的数量是如此之大,以至于无法清楚地了解到底那些才是他们想要/需要学习提高他/她的技能的知识。在这篇文章中,我想分享一下我的经验,提出一条可行的途径,快速学习基本概念,并准备好深入讨论最复杂的话题。当然这只是个人建议:每个朋友都可以根据自己的转载 2017-09-16 10:24:42 · 418 阅读 · 0 评论 -
决策树ID3、C4.5、CART算法:信息熵,区别,剪枝理论总结
决策树ID3、C4.5、CART算法:信息熵,区别,剪枝理论总结转载 2015-09-22 12:46:32 · 2930 阅读 · 0 评论 -
CART分类决策树、回归树和模型树算法详解及Python实现
机器学习经典算法详解及Python实现–CART分类决策树、回归树和模型树 摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息转载 2015-09-22 12:56:01 · 3963 阅读 · 0 评论 -
机器学习内功总纲
2014/05/07 bywdong |Uncategorized机器学习内功总纲我觉得机器学习的万法之宗就是奥康姆剃刀: 拟合效果类似,模型越简单预测能力越强。从不同的对“简单”的定义出发,就产生了不同的流派。比如:1. 特征维度越低就越简单(参考维度诅咒)。从这一点出发产生了各种降维算法,像PCA, LDA(有两个完全不同的LDA,但本质上都是降维)等。多层神经转载 2014-08-26 15:13:52 · 1120 阅读 · 0 评论 -
Brief History of Machine Learning
Brief History of Machine LearningMy subjective ML timelineSince the initial standpoint of science, technology and AI, scientists following Blaise Pascal and Von Leibniz ponder about a mach转载 2014-08-26 15:23:49 · 6929 阅读 · 1 评论 -
GMM-HMM语音识别模型 原理篇
本文简明讲述GMM-HMM在语音识别上的原理,建模和测试过程。这篇blog只回答三个问题:1. 什么是Hidden Markov Model?HMM要解决的三个问题:1) Likelihood2) Decoding3) Training2. GMM是神马?怎样用GMM求某一音素(phoneme)的概率?3. GMM+HMM大法解决语音识别3.1 识别3.2转载 2014-07-11 14:43:16 · 1280 阅读 · 0 评论 -
机器学习知识点学习
机器学习知识点学习http://blog.csdn.net/zouxy09 在学习机器学习的有关知识时,搜索到JerryLead的cnblog中的Machine Learning专栏,里面对于机器学习的部分算法和知识点讲解地很经典和透彻。所以Mark在这,多多学习!http://www.cnblogs.com/jerrylead/tag/Machine%20Learn转载 2014-03-20 21:14:48 · 669 阅读 · 0 评论 -
算法杂货铺——k均值聚类(K-means)
4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介转载 2014-04-01 10:03:59 · 1188 阅读 · 0 评论 -
K-Means算法
原文地址:http://www.csdn.net/article/2012-07-03/2807073-k-means摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据转载 2014-04-01 10:05:10 · 581 阅读 · 0 评论 -
统计学习(2)
感知机学习旨在求出将训练数据集进行线性划分的分类超平面,为此,导入了基于误分类的损失函数,然后利用梯度下降法对损失函数进行极小化,从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。1. 感知机模型 感知机模型如下:f(x)= sign(w*x+b) 其中,x为输入向量,sign为符号函数,括号里转载 2014-03-03 14:55:57 · 665 阅读 · 0 评论 -
以图找图:相似图片搜索的原理
来源:阮一峰 你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。 一个对话框会出现。 你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。 上传后,Google返回如下结果:转载 2014-03-03 15:24:16 · 1325 阅读 · 0 评论 -
决策树模型组合之随机森林与GBDT
前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时, 单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果是生成N(可能转载 2014-03-03 15:15:03 · 901 阅读 · 0 评论 -
机器学习的常识
1. 泛化效果是机器学习的唯一目标训练集上的效果无关紧要,泛化效果是机器学习的唯一目标。稍极端的例子,如果训练集准确率为0%,但随机取的新数据集上准确率为60%。也好过训练集80%,新数据40%的结果。这点不仅对机器学习重要,即使是人工规则,也要审视选定的规则有没有泛化意义,仅仅让标准集效果更好或更差一样没有意义。 2. 机器学习算法的三维算法除参数可设外,还有其它转载 2014-03-03 15:10:58 · 927 阅读 · 0 评论 -
统计学习(3)——k近邻法与kd树
在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是噪声,预测就会出错,极端的情况是k=1,称为最近邻算法,对于待预测点x,与x最近的点决定了x的类别。k值得增大意味着整体的转载 2014-03-03 15:00:04 · 682 阅读 · 0 评论 -
统计学习笔记
1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习转载 2014-03-03 14:54:53 · 819 阅读 · 0 评论 -
深度学习的一些教程
几个不错的深度学习教程,基本都有视频和演讲稿。附两篇综述文章和一副漫画。还有一些以后补充。Jeff Dean 2013 @ Stanfordhttp://i.stanford.edu/infoseminar/dean.pdf一个对DL能干什么的入门级介绍,主要涉及Google在语音识别、图像处理和自然语言处理三个方向上的一些应用。参《Spanner and Deep转载 2014-03-03 15:19:56 · 871 阅读 · 0 评论 -
深度学习(Deep Learning)综述
Comments from Xinwei: 本文是从deeplearning网站上翻译的另一篇综述,主要简述了一些论文、算法已经工具箱。 深度学习是ML研究中的一个新的领域,它被引入到ML中使ML更接近于其原始的目标:AI。查看a brief introduction to Machine Learning for AI 和 an introduction to Deep Le转载 2014-03-03 15:20:49 · 1003 阅读 · 0 评论 -
Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”
斯坦福大学机器学习第六课"逻辑回归“学习笔记,本次课程主要包括7部分:1) Classification(分类)2) Hypothesis Representation3) Decision boundary(决策边界)4) Cost function(代价函数,成本函数)5) Simplified cost function and gradient de转载 2014-03-03 15:18:36 · 1631 阅读 · 0 评论 -
tornadomee资料
Deep Learning(深度学习):ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):一ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):二Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考,很不错。deeplearning.net主页,里面包含的信息量非常多,转载 2014-03-18 21:29:12 · 820 阅读 · 0 评论 -
公开课可下载资源汇总
微博上经常有同学分享一些公开课资源,包括可下载的网盘资源,课件资源等等,但是时间长了就忘了在哪里了。另外Coursera官方也推荐一 些第三方批量下载工具,大家下载课程后也可以考虑共享到网盘里,减轻Coursera官方的下载压力。这里计划做一个汇总,包括一些佚名的来自网络上的课 程资源分享,也欢迎大家提供线索或者补充公开课网盘资源。1、Coursera上Andrew Ng老师的”机器学习公开课转载 2014-03-05 21:38:11 · 911 阅读 · 0 评论 -
公开课可下载资源汇总
微博上经常有同学分享一些公开课资源,包括可下载的网盘资源,课件资源等等,但是时间长了就忘了在哪里了。另外Coursera官方也推荐一 些第三方批量下载工具,大家下载课程后也可以考虑共享到网盘里,减轻Coursera官方的下载压力。这里计划做一个汇总,包括一些佚名的来自网络上的课 程资源分享,也欢迎大家提供线索或者补充公开课网盘资源。1、Coursera上Andrew Ng老师的”机器学习公转载 2014-03-05 21:11:50 · 1028 阅读 · 0 评论 -
MIT牛人林达华的 “图˙谱˙马尔可夫过程˙聚类结构 ”————经典、透彻
题目中所说到的四个词语,都是MachineLearning以及相关领域中热门的研究课题。表面看属于不同的topic,实际上则是看待同一个问题的不同角度。不少文章论述了它们之间的一些联系,让大家看到了这个世界的奇妙。从图说起这里面,最简单的一个概念就是“图”(Graph),它用于表示事物之间的相互联系。每个图有一批节点(Node),每个节点表示一个对象,通过一些边(Edge)把这些点转载 2014-03-05 21:39:19 · 2149 阅读 · 0 评论 -
机器学习理论与实战——回归
按照《机器学习实战》的主线,结束有监督学习中关于分类的机器学习方法,进入回归部分。所谓回归就是数据进行曲线拟合,回归一般用来做预测,涵盖线性回归(经典最小二乘法)、局部加权线性回归、岭回归和逐步线性回归。先来看下线性回归,即经典最小二乘法,说到最小二乘法就不得说下线性代数,因为一般说线性回归只通过计算一个公式就可以得到答案,如(公式一)所示:(公式一)其中X是表示样本特征组成的矩阵转载 2014-03-05 21:14:21 · 1186 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。 后记转载 2014-03-03 15:16:49 · 733 阅读 · 0 评论 -
正则化、归一化含义解析
原文地址 http://sobuhu.com/ml/2012/12/29/normalization-regularization.html正则化(Regularization)、归一化(也有称为正规化/标准化,Normalization)是对数据尽心预处理的方式,他们的目的都是为了让数据更便于我们的计算或获得更加泛化的结果,但并不改变问题的本质,下面对他们的作用分别做一下科普,如有不正确之处转载 2014-03-03 15:26:49 · 1370 阅读 · 1 评论 -
KDD2012会议小结
KDD的全称为ACM SIGKDD conference on Knowledge Discovery and Data Mining,今年的会期是8.12-8.16,在北京的国家会议中心。这是KDD第一次在亚洲举办,机会难得;加之我们组幸运的被邀请在KDDCUP的workshop上做一个报告,我们5位同学就欢快地从上海赶赴北京学习、腐败了。今年参会人数有1000多人,虽然不能转载 2014-03-03 15:14:18 · 1240 阅读 · 0 评论