2015年06月_Findss

转载 Logistics推导

logistic regression 从字面上就可以看出，分类实际上也是一种特殊的回归。其与linear regression的不同是输出增加了一个非线性映射，映射到0-1，从而可以利用概率进行分类。分类问题有很多种模型，包括logistic regression，SVM支持向量机，神经网络等等，logistic是分类问题中最基本的内容。很多教材上也有讲到。但是对logistic函数的来

2015-06-25 21:16:12 1196

转载 KNN

k Nearest Neighbor Algorithm k Nearest Neighbor(kNN) algorithm算法和k-Means算法一样，都是简单理解，但是实际效果出人意料的算法之一。正式由于其算法思想简单，很多人可能会认为在工程中用途有限，实际上kNN和k-Means两种算法正是凭借其算法思想入选 Top Ten Data Mining Algorithm(http://

2015-06-24 16:34:42 622

转载 L1范式和L2范式

L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和。既然L0可以实现稀疏，为什么不用L0，而要用L1呢？个人理解一是因为L0范数很难优化求解（NP难问题），二是L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。L2范数是指向量各元素的平方和然后求平方根。

2015-06-09 21:15:25 20281

转载随机森林原理---学习过程，参数

随机森林原理随机森林，指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出，并被注册成了商标。简单来说，随机森林就是由多棵CART（Classification And Regression Tree）构成的。对于每棵树，它们使用的训练集是从总的训练集中有放回采样出来的，这意味着，总的训练集中的有些样本可能多次出现在一棵树

2015-06-06 15:37:48 3317 2

原创 Ein 和 Eout ,分别表示学习到的最终假设 g 与未知的目标函数 f 在训练样本内的误差和在训练样本之外的误差。

Ein 和 Eout ,分别表示学习到的最终假设 g 与未知的目标函数 f 在训练样本内的误差和在训练样本之外的误差。

2015-06-04 17:19:53 2912

转载机器学习的本质

一般而言，机器学习方法包含以下几个组件：假设集H ：所有预测用的函数h的集合，根据其输出值，可以将问题分为回归和分类数据D：已知的数据集合，通常包含训练数据和测试数据算法A：在H中选取一个在D上表现最好的假设，在实际中，就是通过最优化理论来选择模型参数。VC bound ：在训练数据和测试数据从同一个概率分布抽取，且数据量够大时时，对于常见的 error measure

2015-06-03 15:25:50 1026

原创台大机器学习听课笔记---基石 9-1 Linear Regression

台大机器学习听课笔记---基石 9-1 Linear Regression找一个线性函数或超平面来描述所看到的实数资料是什么样的。红色线段 ---- rediduals:余差最小化EinLinear Classiffication 和Linear RegressionEr

2015-06-03 12:15:15 441

原创 sign(x) 不懂不会百度吗？

sign(x): 在数学和计算机运算中，其功能是取某个数的符号（正或负）：当x>0，sign(x)= 1 当x=0，sign(x)= 0 当x

2015-06-01 21:58:13 983

原创台大机器学习听课笔记---RF 10-4 Summary 待总结

台大机器学习听课笔记---RF 10-4 Summary 待总结

2015-06-01 14:56:00 474

findsd1989的专栏