机器学习
文章平均质量分 89
JAVA技术分享官-乐乐
zzz
展开
-
机器学习之概念——回归、分类
机器学习中常听到回归、分类、聚类的概念。 回归:其结果是线性的,取值取近似值。 分类:其结果是离散的,结果就是结果。 聚类:在图像上可以看到一个一个小集群的圈分,也就是在一起的离散点被划分在一起。...原创 2018-08-08 15:46:45 · 547 阅读 · 0 评论 -
机器学习笔记之十三——对GBDT的疑问:GBDT的负梯度为什么近似于提升树的残差
先验知识: 提升树的优化目标: ,其中yi为真实label,为第m-1个模型,为残差。 ——公式来自 李航《统计学习方法》P148...原创 2019-01-07 16:28:55 · 3144 阅读 · 4 评论 -
lightgbm学习——A Highly Efficient Gradient Boosting Decision Tree 生翻
3.2小结的理论分析,虽然翻译了却不很理解这个公式,过路前辈还请不吝简单讲解。原创 2019-01-24 16:16:39 · 287 阅读 · 0 评论 -
数据挖掘竞赛总结——津南数字制造算法赛
用十天左右的时间参加了阿里天池最近的津南数字制造算法赛的赛场一,名次159,复赛都没进去,但是通过这次比赛,了解到了理论如何应用于实际,也发现了算法理论并不是实际应用唯一的部分。以下是我认为实际应用中重要的几个点: 1、异常值检测、处理。 2、特征的连续值和离散值处理。 3、特征工程——根据领域知识制造特征。 4、特征选择。 5、算法选择、参数调优。 在实...原创 2019-01-24 17:14:22 · 1461 阅读 · 17 评论 -
机器学习笔记之十四——预测值的偏差、原始数据的方差
偏差是什么? 为什么我说是预测值的偏差?这个值实质上,就是实际的label值与模型预测的label值之间的差值。这个十分容易理解,一般情况下,我们提升模型效果都是冲着降低偏差来的。方差是什么? 在概率论、统计学等书本中都有会方差的介绍,方差(和标准差)表示的,就是一列数据的离散程度,值越大,离散程度越大。 下图很好的展示了这个概念。 一...原创 2019-01-14 19:06:46 · 6360 阅读 · 1 评论 -
机器学习笔记之十五——lightgbm之直方图算法
lightgbm使用时有一个参数“max_bin”一直在用,但是一直比较模糊,于是想搞它一搞。 max_bin官方文档的解释:max number of bins that feature values will be bucketed insmall number of bins may reduce training accuracy but may increase gen...原创 2019-02-02 17:57:45 · 1690 阅读 · 0 评论 -
机器学习笔记之十六——模型融合Blending
Blending方法是区别于bagging和boosting的另一种集成模型的方法。 在已经得到多个弱学习器的状况下,如何将这些弱学习器的预测值联合起来,得到更好的预测值,就是Blending做的事情。 1、Uniform Blending uniform Blending(平均Blending)是最简单的一种Blending方法。 定义:已知多个弱学习器,每...原创 2019-02-03 22:11:58 · 3291 阅读 · 0 评论 -
机器学习笔记之十七——VC dimension
定义 VC维(外文名Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学理论定义的有关函数集学习性能的一个重要指标。传统的定义是:对一个指示函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它...原创 2019-02-06 22:44:23 · 697 阅读 · 0 评论 -
机器学习笔记之十八——分别从象限和泰勒理解牛顿法
牛顿法与梯度下降法作用相同,都是求解函数用的,在机器学习问题中,就是求解损失函数,寻找最优参数。 1、从几何图像来看牛顿法 有一个待解函数 ,我们要求它的0点解x*,用牛顿法。 假设有一个点x0十分接近x*,在这个点对函数曲线做切线。如果x0点之下的曲线斜率保持不变,那么这条切线与的0点解(即切线与x轴的交点)就是曲线的零点解。实际上,斜率在变,这时我们又发现,...原创 2019-02-10 00:04:12 · 347 阅读 · 0 评论 -
机器学习笔记之十九——决策树的损失函数(补充)
决策树生长的核心在于如何选择最优特征作为当前结点分割的特征。 当决策树如此生长完成后,对训练集程度会很好,但是对测试集一般都会出现高方差、过拟合的现象,如何预防这种现象,就是之前提到的预剪枝、后剪枝方法。 而剪枝过程换个方法来讲,其实就是在优化降低Loss function的的过程。 Loss function 设决策树T的叶节点个数为, 是树的叶节点,该叶节点有个...原创 2019-02-10 22:15:17 · 4226 阅读 · 0 评论 -
机器学习笔记之二十一——基于统计的中文分词方法
中文NLP最基础的问题应该就是分词了,毕竟中文不像英文一样单词与单词之间都有空格存在,所以将句子中的词语分开就是机器对一个句子或者一篇文章进行NLP的第一步。 分词的方法许多,比如基于字典的暴力分词,基于统计的语义分词。因为目前中文分词领域最有效果的就是基于统计的分词方法,所以,我先看它。基于统计的中文分词方法 这里介绍的是利用有向无环图DAG求最大概率路...原创 2019-02-28 15:16:26 · 6161 阅读 · 2 评论 -
机器学习笔记之二十二——PCA与SVD
PCA(主成分分析)是机器学习中常用于数据降维的一种方式,SVD(奇异值分解)也具有降维的效果,在推荐领域、nlp领域较为常见。PCA PCA主要通过数据矩阵的协方差来作为降维的准则,具体流程如下: (1)、对m*n矩阵计算协方差,得到n*n的协方差方阵。 (2)、使用特征值分解对协方差方阵进行分解。 (3)、确定n降维到多少,定义为...原创 2019-03-02 12:26:58 · 266 阅读 · 0 评论 -
机器学习笔记之十二——SVM原理及推导
svm(support vector machine)是一种二分类算法,它的目标在于寻找一个能将两种点分离的直线或平面或超平面。如图(来自wiki):图中的红线将两边数据点分开,这条线就是分割直线,同样的,在三维坐标轴中,将两边数据点分开的平面,称为分割平面;更高维的空间坐标轴,统称为分割超平面。 对于svm来说,找到这个分割超平面的准则或者是思路:使离分割平面较近的点(这种点被...原创 2018-12-24 13:49:49 · 613 阅读 · 0 评论 -
机器学习笔记之十一——集成学习之Boosting及AdaBoosting
上一篇记述了Bagging的思维与应用 : https://blog.csdn.net/qq_35946969/article/details/85045432 本篇记录Boosting的思想与应用:AdaBoosting、GDBT(梯度提升树) Boosting 概念:提升学习(Boosting)每一步产生一个弱预测模型(如决策树),而后面每一次产生的弱预测...原创 2018-12-17 13:45:17 · 448 阅读 · 0 评论 -
机器学习之线性回归原理及sklearn实现
1、线性回归问题 以房价预测为例,占地面积为变量x1,房屋年龄为变量x2,房屋价格为预测变量y。 为什么叫线性回归问题,因为目标函数是一个线性回归函数。什么是目标函数? (1)、目标函数:目标函数是我们需要的最终结果,及最终拟合了数据的函数。 假设目标函数为y = θ1*x1 + θ2*x2 + b。 那么我们...原创 2018-09-23 15:22:17 · 1660 阅读 · 0 评论 -
机器学习学习笔记之一——用python实现简单一元函数、二元函数的梯度下降
今天开始正正经经,好好的写机器学习的笔记。 再一次从头翻过来学机器学习,在有一些python和大学数学的基础下,首先要搞的果然还是梯度下降,本篇记录的是用jupyter完成的一次作业:python实现一维数组和二维数组的梯度下降,目的只在于熟悉梯度下降。第一部分:一元函数的数据生成与图像呈现import numpy as npimport matplotlib.pyplot ...原创 2018-11-24 16:07:22 · 5781 阅读 · 2 评论 -
机器学习学习笔记之二——大数定律、中心极限定理以及极大似然估计理解与用法
极大似然估计法常常出现在机器学习算法的推导过程中,其使用场景或者说功能正是: 以已有样本、已有公式去估计参数,最大可能的那个参数。 这样来理解,极大似然估计法其实和机器学习算法的目标都是一样的。那么极大似然估计法如何来用呢? (1)、写出已有公式: L(θ)。 (2)、对L(θ)取对数: ln L(θ)。 这一步的目的是将L(θ)中的连乘操作转化为连加。 (...原创 2018-11-26 11:38:50 · 1685 阅读 · 1 评论 -
机器学习笔记笔记之三——文本类型处理-词袋法、TF-IDF理解
在面对文本型特征时,大致可以分为两种。 一是枚举类型,比如:男女,小学生初中生高中生大学生……这种类型下类别一般不会超过百种,那么就可以使用 哑编码(one-hot)来处理。 另一种就是真正意义上的文本,一条评论或是一篇文章。对于这样的数据,我们介绍两种方法: (1)、词袋法。 什么是词袋法?将文本当作一个无序的集合,可以采用文本中的词条T进行体现,那么文...原创 2018-11-27 11:18:21 · 4922 阅读 · 0 评论 -
机器学习笔记之八—— knn-最简单的机器学习算法以及KD树原理
上一节结束了线性回归、逻辑回归,今天一节来介绍机器学习中最简单的算法: K近邻(KNN,全称K-nearst Neighbor) 概述:判断一个样本的label只需要判断该样本周围其他样本的label。简言之,朋友选啥我选啥。 具体实现? 对于特征为X(X可以是多个),样本为y的训练集,当我们需要预测的时候,直接将需要预测的目标样本yi拿过...原创 2018-12-16 18:01:01 · 266 阅读 · 0 评论 -
机器学习笔记之四——线性回归原理以及推导
一元线性回归: 对于样本[(x1,y1),(x2,y2),……(xn,yn)],xi为特征,yi为标签。(字幕i代表下标) 假定y与x有: y = f(xi) = w*xi + b 确定参数w和b的值的关键在于如何衡量f(x)与y之间的差距,即 ** 基于均方误差最小化来进行模型求解的方法成...原创 2018-12-11 10:20:48 · 315 阅读 · 0 评论 -
机器学习笔记之九——决策树原理以及举例计算
决策树是机器学习最基本的算法之一,它本身作为一颗树而言,十分简单。 就是将特征属性放在结点的未知,按照特征属性将样本分类,放在左子树和右子树。 而在左子树和右子树,继续使用其他的特征属性作为结点,向下分类。 学习决策树复杂的部分在于,如何最优的选择特征属性作为结点,以及生成决策树后的优化策略。 下面就进入第一个问题,如何最优的选择特征属性作为结点,下面引入的的信息熵、条...原创 2018-12-17 10:26:01 · 792 阅读 · 0 评论 -
机器学习笔记之五——目标函数、经验风险与结构风险、正则项
一、常见的目标函数(loss/cost function) 二、经验风险与结构风险 经验风险 L(f) 就是以上损失函数,描述的是模型与训练数据的契合程度。 结构风险Ω(f)对应于过拟合问题,用正则项解决过拟合是结构风险的课题。 三、正则项正则项原本有两种,L1正则项与L2正则项,后面还出现了L1和L2的中庸形态——Elasitc Net。 首先,L1正...原创 2018-12-11 10:33:24 · 648 阅读 · 0 评论 -
机器学习笔记之六——梯度下降推导之BGD、SGD、MBGD
BGD(批梯度下降,又称全量梯度下降)为标准梯度下降套路,但是速度慢,每一次更新参数Θ都需要遍历所有样本。SGD(随机梯度下降)求速度,每一次更新参数Θ只去遍历一个样本。MBGD(小批量梯度下降)取两者中庸,每次更新Θ,取一部分样本来遍历。具体解释如下: 值得一提的是,加入正则项后,因为L1正则项包含绝对值,不可导,所以不能使用梯度下降法,但是可以使用近端梯度下降法...原创 2018-12-11 10:41:48 · 1448 阅读 · 0 评论 -
机器学习笔记之七——逻辑回归简单推导、softmax简单理解以及sklearn中逻辑回归常用参数解释
逻辑回归对逻辑回归的理解:对线性回归的假设函数的 f(x) 又套上了一层sigmoid函数,即g(f(x)).然后sigmoid函数是长这样的:它的图像长这样:对于线性回归得到的结果,再经过一层sigmoid函数,以x=0为界限,左边为0,右边为1,逻辑回归就是这样一个二分类的算法。那我们再从数学的角度去看一下它的推导过程,在此之前,要知道sigmoid的导函数很特殊,长这样的...原创 2018-12-11 10:54:52 · 1955 阅读 · 1 评论 -
机器学习笔记之十——集成学习之Bagging
上一节学习了决策树:https://blog.csdn.net/qq_35946969/article/details/85039097最后说到提升决策树的性能,集成就是非常强大的解决方案。借助一个图,直观的了解集成学习: Bagging Bagging是集成个体学习器的一种方式,它的思想十分简单: a.对原始样本进行有放回采样,得到一个样本子集,用这个样本子集...原创 2018-12-17 13:14:45 · 291 阅读 · 0 评论 -
机器学习笔记之二十——Factorization Machines(FM)
Factorization Machines,为什么会出现这个东西? (1)、在推荐系统中,数据矩阵往往是十分稀疏的,而原本分类任务中最强的单模型——SVM又对高维稀疏的数据十分的不敏感,无法找到一个好的分割超平面。 (2)、推荐系统中有诸多基于内容的推荐算法、协同过滤等算法框架,但是一般某个业务的模型不具备一般化能力,不能拿到别的业务中使用。 基于...原创 2019-02-26 21:42:03 · 3018 阅读 · 2 评论