数据挖掘与机器学习
文章平均质量分 91
Findss
大 开眼界
展开
-
《数据挖掘-概念与技术》之数据预处理
!原创 2015-05-06 16:30:21 · 424 阅读 · 0 评论 -
KNN
k Nearest Neighbor Algorithm k Nearest Neighbor(kNN) algorithm算法和k-Means算法一样,都是简单理解,但是实际效果出人意料的算法之一。正式由于其算法思想简单,很多人可能会认为在工程中用途有限,实际上kNN和k-Means两种算法正是凭借其算法思想入选 Top Ten Data Mining Algorithm(http://转载 2015-06-24 16:34:42 · 623 阅读 · 0 评论 -
SVM
面试宝典系列主要是针对将来找工作时面试官可能会考察到的内容,大致包括机器学习十大算法以及一些机器学习常见概念。现在把这些东西先弄明白整理出来,面试前再热乎热乎。 本系列主要参考了李航博士的《统计学习方法》以及网上的一些知名博文。快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q插入链接 Ctrl + L插入代码 Ctrl + K插原创 2015-07-24 10:48:28 · 483 阅读 · 0 评论 -
JAVA实现Linear Regression
JAVA实现Linear Regression原创 2015-07-06 17:57:06 · 1079 阅读 · 0 评论 -
L1范式和L2范式
L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和。既然L0可以实现稀疏,为什么不用L0,而要用L1呢?个人理解一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。L2范数是指向量各元素的平方和然后求平方根。转载 2015-06-09 21:15:25 · 20289 阅读 · 0 评论 -
随机森林原理---学习过程,参数
随机森林原理随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树转载 2015-06-06 15:37:48 · 3342 阅读 · 2 评论 -
Ein 和 Eout ,分别表示学习到的最终假设 g 与未知的目标函数 f 在训练样本内的误差 和 在训练样本之外的误差。
Ein 和 Eout ,分别表示学习到的最终假设 g 与未知的目标函数 f 在训练样本内的误差 和 在训练样本之外的误差。原创 2015-06-04 17:19:53 · 2933 阅读 · 0 评论 -
机器学习的本质
一般而言,机器学习方法包含以下几个组件:假设集H :所有预测用的函数h的集合,根据其输出值,可以将问题分为回归和分类数据D:已知的数据集合,通常包含训练数据和测试数据算法A:在H中选取一个在D上表现最好的假设,在实际中,就是通过最优化理论来选择模型参数。VC bound :在训练数据和测试数据从同一个概率分布抽取,且数据量够大时时,对于常见的 error measure转载 2015-06-03 15:25:50 · 1029 阅读 · 0 评论 -
sign(x) 不懂不会百度吗?
sign(x): 在数学和计算机运算中,其功能是取某个数的符号(正或负): 当x>0,sign(x)= 1 当x=0,sign(x)= 0 当x原创 2015-06-01 21:58:13 · 1000 阅读 · 0 评论 -
台大机器学习听课笔记---RF 10-4 Summary 待总结
台大机器学习听课笔记---RF 10-4 Summary 待总结原创 2015-06-01 14:56:00 · 474 阅读 · 0 评论 -
台大机器学习听课笔记---RF 10-3 Feature Selection
Feature Selection从庞大的特征集合中筛选特征(例如1W维选出300维)----来剔除掉 :冗余,无关的特征。这样做的好处:1. 不管训练还是测试都是在那300维上,提高效率。2. 排除掉了其他9700维的"noise".从而不容易overfit.3. 可解释性缺点:1. 1W维选出300维,在计算上要花很大的力原创 2015-05-30 11:37:19 · 661 阅读 · 0 评论 -
台大机器学习听课笔记---RF 10-2 Out-Of-Bag Estimate
OOB:列gi为从已有的资料中选出的一部分,行(Xi,Yi)为资料元数据。矩阵中红星代表未选中,Di代表被gi选中.原创 2015-05-29 22:22:46 · 1793 阅读 · 0 评论 -
台大机器学习听课笔记---Bagging 7-4
目的:用同一份资料制造出很多不同的小矩。用手上的资料生出长的像“新鲜”的资料。------------------------------------------------------------------------------------------------------------------------------------------做法:从手原创 2015-05-29 16:36:53 · 491 阅读 · 0 评论 -
台大机器学习听课笔记---Random Forest 10-1
台大机器学习听课笔记---Random Forest原创 2015-05-25 21:24:59 · 678 阅读 · 0 评论 -
过拟合产生的原因和预防
1,什么是过拟合(overfitting)简单的说就是这样一种学习现象:Ein 很小,Eout 却很大。而Ein 和 Eout 都很大的情况叫做 underfitting。这是机器学习中两种常见的问题。上图中,竖直的虚线左侧是"underfitting", 左侧是"overfitting”。发生overfitt转载 2015-05-21 17:16:29 · 4139 阅读 · 0 评论 -
支持向量机(SVM)的详细推导过程及注解
原文地址:http://blog.sina.com.cn/s/blog_4298002e010144k8.html 支持向量机(SVM)的详细推导过程及注解转载 2015-05-21 15:13:49 · 517 阅读 · 0 评论 -
监督学习与无监督学习
在机器学习(Machine learning)领域,主要有三类不同的学习方法:监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning),监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。非监转载 2015-05-21 11:28:14 · 2092 阅读 · 0 评论 -
四种归一化方法
1、线性函数转换,表达式如下: y=(x-MinValue)/(MaxValue-MinValue) 2、对数函数转换,表达式如下: y=log10 (x) 3、反余切函数转换 ,表达式如下: y=arctan(x)*2/PI 4、减去均值,乘以方差: y=(x-means)/ variance原创 2015-05-07 15:36:32 · 4112 阅读 · 0 评论 -
Logistics推导
logistic regression 从字面上就可以看出,分类实际上也是一种特殊的回归。其与linear regression的不同是输出增加了一个非线性映射,映射到0-1,从而可以利用概率进行分类。分类问题有很多种模型,包括logistic regression,SVM支持向量机,神经网络等等,logistic是分类问题中最基本的内容。很多教材上也有讲到。但是对logistic函数的来转载 2015-06-25 21:16:12 · 1198 阅读 · 0 评论