机器学习
WWtianxiang
这个作者很懒,什么都没留下…
展开
-
随机森林原理
什么是随机森林随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。对于每个决策树,用以下过程生成:假如有N个样本,则有放回的随机选择N个样本(每...原创 2020-04-25 14:43:18 · 1344 阅读 · 0 评论 -
交叉熵CrossEntropy
由之前的决策树笔记我们学习到了熵这个概念,所谓熵,就是不确定程度,是对随机变量不确定性的度量。设X是一个取值有限的随机变量,其分布为P(X=xi)=Pi,i=1,2,...,nP(X=x_i)=P_i,i=1,2,...,nP(X=xi)=Pi,i=1,2,...,n则X的熵的定义为H(X)=−∑i=1nPilog(Pi)H(X)=-\sum_{i=1}^{n}P_ilog(P_i)H(X...原创 2020-04-21 21:40:50 · 192 阅读 · 0 评论 -
决策树笔记
原创 2020-04-21 16:19:45 · 80 阅读 · 0 评论 -
先验概率、类条件概率、后验概率
先验概率事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。类条件概率一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y发生的条件下x发生的概率。后验概率事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。...原创 2020-04-21 15:54:33 · 2164 阅读 · 0 评论 -
朴素贝叶斯法笔记
原创 2020-04-21 10:51:07 · 118 阅读 · 0 评论 -
什么是Boosting算法——Adaptive Boosting (AdaBoost) 与Gradient Boosting详解
什么是Boosting:与许多ML模型专注于由单个模型来完成高质量预测不同, Boosting算法试图通过训练一系列弱模型来提高预测能力,每个模型都可以弥补其前辈的弱点。图片来自https://towardsdatascience.com/boosting-algorithms-explained-d38f56ef3f30要了解Boosting,至关重要的是要认识到Boosting 是一种...原创 2020-04-13 21:36:02 · 1472 阅读 · 0 评论 -
统计学习方法——K近邻python实现
K近邻1.k近邻法是基本且简单的分类与回归方法。k近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的k个最近邻训练实例点,然后利用这个训练实例点的类的多数来预测输入实例点的类。2.k近邻模型对应于基于训练数据集对特征空间的一个划分。k近邻法中,当训练集、距离度量、k值及分类决策规则确定后,其结果唯一确定。3.k近邻法三要素:距离度量、k值的选择和分类决策规则。常用的距离...原创 2020-04-12 20:14:14 · 210 阅读 · 0 评论 -
统计学习方法——感知机python实现(附训练迭代动画)
使用感知机对iris数据集中的前两维特征构成的数据点分类import numpy as npimport pandas as pdfrom sklearn.datasets import load_irisimport matplotlib.pyplot as pltiris = load_iris()df = pd.DataFrame(iris.data, columns=iris...原创 2020-04-11 14:25:23 · 438 阅读 · 0 评论 -
机器学习的一些常识(联合概率分布、模型种类、生成方法与判别方法)
联合概率分布假设监督学习的输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),对于学习系统来说,联合概率分布的具体定义是未知的,训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。X和Y具有联合概率分布就是监督学习关于数据的基本假设。按模型分类一概率模型概率模型是生成模型,一定可以表示为联合概率分布的形式非概率模型非概率模型是判别模型二线性模型非线性...原创 2020-04-10 16:11:09 · 1917 阅读 · 0 评论 -
机器学习笔记(二):为什么要设置学习率
为什么要设置学习率朴素的调整方法会出现一个问题,即改进后的模型只与最后一个训练样本最匹配,忽略了所有以前的训练样本。解决这个问题的一种好的方法是使用学习率,调节改进的速率,这样单一的训练样本就不能主导整个学习过程。...原创 2019-08-02 10:00:00 · 777 阅读 · 0 评论 -
机器学习笔记(一):为什么要在Loss function中加入regularization项
**为什么要在Loss function中加入regularization项假设模型为 y^=b+∑wixi\ \hat{y} = b + \sum w_ix_i y^=b+∑wixiLoss function 为L=∑n[yn−(b+∑wixi)]2+λ∑(wi)2L = \sum\limits_n[y^n - (b + \sum w_ix_i)]^2 + \...原创 2019-05-13 16:53:57 · 237 阅读 · 0 评论