机器学习基础知识
文章平均质量分 76
ivysister
这个作者很懒,什么都没留下…
展开
-
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。转载 2015-04-15 19:53:41 · 696 阅读 · 0 评论 -
推荐系统-利用用户行为数据
用户的行为数据介绍: 用户的行为主要分为两种-显性反馈行为 和 隐性反馈行为 ,显性反馈行为主要包括 评分 和喜欢/不喜欢 ,youtube最早是使用是使用五分评价系统的,但是只有用户很不满意和特别满意的情况下才会评分,因此又把它变成了二级评分系统。 隐式反馈行为就是页面的浏览行为。用户的行为分析: 用户的数据分布大都满足一种长尾分布,就是 每个单词出现的频率和他在热门排原创 2016-05-10 15:57:21 · 17843 阅读 · 0 评论 -
EM算法详细讲解
EM算法本文试图用最简单的例子、最浅显的方式说明EM(Expectation Maximization)算法的应用场景和使用方法,而略去公式的推导和收敛性的证明。以下内容翻译自《Data-Intensive Text Processing with MapReduce》。Maximum Likelihood EstimationMaximum Likelihood Esti转载 2016-03-11 16:21:41 · 2051 阅读 · 0 评论 -
pca与svd的好文
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com,前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇转载 2016-03-21 16:53:58 · 1222 阅读 · 0 评论 -
sklearn-基础使用
数据清洗可以用pandas,数据predict的时候就要用到大名鼎鼎的sklearn了,里面包含了很多基础的算法,可以帮助Data Scientist 解决很多问题。(a)data normalizationfrom sklearn import preprocessing# normalize the data attributesnormalized_X = prepr原创 2016-03-16 12:31:31 · 9634 阅读 · 0 评论 -
pipeline+crossvalidation 调整参数值
由于刚刚进入这个领域,用sklearn在几个toy dataset上跑了几个算法后,就在发愁如何调整参数值的事情,在看了sklearn的官方文档和一些csdn之后整理如下:官方网站给出了如上的一种评分方式,以这个为基础,通过不同的切分train dataset得到train和test 我们可以得到一个平均得分(当然通过改变参数scoring的值,具体规则在这http://sci原创 2016-01-26 11:44:17 · 1678 阅读 · 0 评论 -
logistic Regression
1.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学习笔记总结一下。首先说一下我的感受,《机器学习实战》一书在介绍原理的同时将全部的算法用源代码实现,非常具有操作性,可以加深对算法的理解,但是美中不足的是在原理上介绍的比较粗略,很多细节没有具转载 2016-01-09 14:27:13 · 476 阅读 · 0 评论 -
feature scaling的作用
转自:http://blog.sina.com.cn/s/blog_7f2889330101awle.html定义:Feature scaling is a method used to standardize the range of independent variables or features of data. In data processing, it is also kno转载 2016-01-05 18:19:10 · 1196 阅读 · 0 评论 -
最小二乘法,牛顿法,梯度下降法以及比较
以下引用了一些网上的资源1.最小二乘法最小二乘法的目标:求误差的最小平方和,对应有两种:线性和非线性。线性最小二乘的解是closed-form即,而非线性最小二乘没有closed-form,通常用迭代法求解。迭代法,即在每一步update未知量逐渐逼近解,可以用于各种各样的问题(包括最小二乘),比如求的不是误差的最小平方和而是最小立方和。1.1梯度下降是迭代法的一种,可以用于求解最小二原创 2015-05-02 11:03:43 · 10723 阅读 · 0 评论 -
bfgs拟牛顿法
在最优化领域,有几个你绝对不能忽略的关键词:拟牛顿、DFP、BFGS。名字很怪,但是非常著名。下面会依次地说明它们分别“是什么”,“有什么用” 以及 “怎么来的”。但是在进入正文之前,还是要先提到一个概念上的区别,否则将影响大家的理解:其实DFP算法、BFGS算法都属于拟牛顿法,即,DFP、BFGS都分别是一种拟牛顿法。先说一点轻松的——我至少要让一小部分人对这篇文章“有点兴趣转载 2015-05-02 11:37:40 · 1477 阅读 · 0 评论 -
常见的向量范数
1、向量范数1-范数:,即向量元素绝对值之和,matlab调用函数norm(x, 1) 。2-范数:,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x, 2)。∞-范数:,即所有向量元素绝对值中的最大值,matlab调用函数norm(x, inf)。-∞-范数:,即所有向量元素绝对值中的转载 2015-04-15 20:12:41 · 2568 阅读 · 0 评论 -
特征选择和特征理解
作者:Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常转载 2016-05-23 16:52:01 · 11294 阅读 · 2 评论