算法和机器学习
禾如月
兴趣爱好:数据挖掘与机器学习
展开
-
监督学习与无监督学习
监督学习:supervised learning (given the "right answer" for each example in the data) 监督学习是指数据集中,有部分数据是已经含有正确答案,即为训练集,根据该类数据集去算出另一部分数据集的答案。监督学习主要分为有两大类问题:回归 虽然给的数据集可能是离散的,但是一般会理解为原创 2016-08-17 16:45:14 · 583 阅读 · 0 评论 -
回归问题之线性回归II
1、线性回归(linear regression):b、多元线性回归 multivariate linear regression:形式如下:令则因此:有 参数有:那么,cost function(代价函数)为:原创 2016-08-30 15:57:14 · 2604 阅读 · 0 评论 -
回归问题之线性回归
1、线性回归(linear regression):a、单变量线性回归univariate linear regression:形式:关键是怎么选择模型的参数,:应该是使得尽可能/无限 接近训练样本(x,y)中的y值,也就是最小化问题:线性回归的整体目标函数其中,i 表示第i个样本;m 表示训练样本数量。令,那么,我们要做的便是使得最小化原创 2016-08-17 16:46:04 · 1434 阅读 · 0 评论 -
插值
在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点。插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。 与拟合不同的是,它要求曲线通过所有的已知数据。python中:scipy的interpolate模块提供了许多插值运算的函数1、B样条曲线插值:一维数据的插值运算通原创 2016-08-12 16:54:10 · 3123 阅读 · 0 评论 -
分类问题之逻辑回归
逻辑回归(logistic regression):Logistic regression is a method for classifying data into discrete outcomes.(将数据分类为离散的结果输出,例如将分类邮件为垃圾邮件或非垃圾邮件)首先,了解一下分类:例如,给出一堆邮件,将其分为垃圾邮件和非垃圾邮件;又比如将肿瘤分类为良性和恶性两原创 2016-09-17 16:19:36 · 5028 阅读 · 0 评论 -
过度拟合与正规化线性回归
过度拟合(over fitting):在拟合数据时,如果要包含每条训练记录数据,则很容易产生过度拟合,换句话说,过度拟合现象在特征变量很多很多时容易产生。(如下图2所示) 解决过度拟合的两种方法:减少选取特征变量的数量(reduce number of features)正规化:保留所有特征变量,但是减少数量级或者参数大小(k原创 2016-09-07 21:00:28 · 2349 阅读 · 0 评论 -
Scikit learn:machine learning in Python之贝叶斯学习
chapter 2之朴素贝叶斯. 朴素贝叶斯是一个简单却很强大的分类器,基于贝叶斯定理的概率模型。本质来说,贝叶斯是基于每个特征值的概率去决定该实例属于一类的概率,前提条件,也就是假定每个特征之间是独立的。朴素贝叶斯的一个非常成功的应用就是自然语言处理(natural language processing , NLP),NLP问题有很重要的,大量的标记数据(一般为文本文件),原创 2016-12-18 19:16:36 · 1827 阅读 · 2 评论