![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
devinwood
功不唐捐
展开
-
局部加权线性回归
在线性回归中,有时候样本点对待估计点的预测有一定影响,离待估计点越近的点对待估计点的预测影响更大,而距离远的点则影响小点,所以需要引入参数衡量样本点与待估计点的相似度,这个相似度可以作为一个权值,表示对待估计点估计的权有多大,这样就得到局部加权线性回归(Locally weighted linear regression)。原创 2017-08-31 21:02:03 · 296 阅读 · 0 评论 -
[实践]房价预测
回归学习器房价预测实践原创 2017-12-01 00:33:22 · 2137 阅读 · 0 评论 -
回归决策树
决策树是处理分类的常用算法,但它也可以用来处理回归问题,其关键在于选择最佳分割点,基本思路是:遍历所有数据,尝试每个数据作为分割点,并计算此时左右两侧的数据的离差平方和,并从中找到最小值,然后找到离差平方和最小时对应的数据,它就是最佳分割点。sklearn.tree.DecisionTreeRegressor函数即利用决策树处理回归问题,树的深度越高拟合效果越好,也更容易发生过拟合。原创 2017-11-11 23:46:07 · 402 阅读 · 0 评论 -
决策树
决策树是一种树形结构,其中的每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。它是以实例为基础的归纳学习,采用自顶向下的递归方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点的熵值为零,此时每个叶节点中的实例都属于同一类。在学习过程中,仅需对训练实例做较好的标注,算法就能进行自学习。原创 2017-09-17 17:03:40 · 319 阅读 · 0 评论 -
集成学习
集成学习(ensemble learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。给定一个训练样本集,一般来说较容易得到粗糙的学习器,所谓的弱学习器,从弱学习算法出发,反复学习得到多个弱学习器,然后通过一定结合策略组合这些弱学习器,便可以得到一个强学习器。原创 2017-10-24 21:56:38 · 392 阅读 · 1 评论 -
随机森林
bagging是bootstrap aggregation的缩写,表示依靠自身的资源实现系统性能的提升,有时候我们用所有的样本训练也只能得到一个弱分类器,这个时候,我们可以通过多次对样本重抽样的方式得到不完全相同的样本建立多个弱分类器,由多个弱分类器投票结果觉得弱分类器属于哪一类,这就是bagging的思想。随机森林是在bagging的基础上做了改进,特征的选择也是随机的。原创 2017-10-16 19:42:43 · 365 阅读 · 0 评论 -
信息熵
熵的相关概念整理原创 2017-09-11 23:08:58 · 522 阅读 · 0 评论 -
Softmax回归
Softmax回归是Logistic回归的多分类推广原创 2017-09-10 11:27:00 · 263 阅读 · 0 评论 -
Logistic回归
线性回归的输出值是一串连续值,但有时候希望输出值可以是0~1的连续值,这样的输出在某种程度上可以看做是概率,可以用于分类问题,Logistic回归通过sigmoid函数将连续值映射到区间(0,1),并划定一个阈值,大于阈值属于一类,小于或等于阈值属于另一类。Logistic回归属于线性回归的一种推广,属于广义线性回归,本质是对数线性回归。原创 2017-09-04 23:43:14 · 269 阅读 · 0 评论 -
[实践]自行车租赁预测
Kaggle比赛:自行车租赁预测原创 2017-09-16 15:53:36 · 4249 阅读 · 3 评论 -
模型评估
当我们得到一个机器学习模型,我们需要确定几个指标用来评估模型的预测能力。对于回归分析,主要有mse和R方。对于分类算法,评价指标主要有AUC,accuracy,precision等。本文主要介绍相关术语。原创 2017-08-29 20:54:05 · 1040 阅读 · 0 评论 -
梯度下降法
线性回归中参数解析式的求解涉及到矩阵的求逆,当特征矩阵数据量过大,求逆是一个很耗时的过程,根据梯度反方向是函数值下降最快的方向,我们可以使用梯度下降法绕过求逆的过程。原创 2017-08-22 00:27:10 · 588 阅读 · 0 评论 -
线性回归
回归(regression)是监督学习①^①的一个重要问题,是从输入空间到输出空间②^②的映射函数,等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且能很好的预测未知数据。在监督学习中,模型即为所要学习的条件概率分布或决策函数,线性回归的假设空间(hypothesis space)③^③,是由一个参数向量决定的函数族。原创 2017-08-15 23:54:35 · 318 阅读 · 0 评论 -
过拟合
过拟合原创 2017-08-20 13:08:11 · 495 阅读 · 0 评论 -
向量化编程
在机器学习中,尽量使用内置函数,尽量避免显示for循环,向量化编程可以程序运行速度显著加快。原创 2017-09-04 00:35:18 · 1713 阅读 · 0 评论 -
聚类
聚类是一种无监督算法,针对大量未知标注的数据集,按数据的相似性将数据分为多个类别,使类别内的数据相似性较大而类别间的数据相似度较小。若数据集已知标注,则可以利用聚类对数据降维操作。聚类算法分类:基于位置的聚类(kmeans\kmedians),基于密度的聚类(DBSCAN\最大密度聚类),基于图论的聚类(AP聚类\谱聚类)原创 2017-12-19 00:44:14 · 1478 阅读 · 0 评论