![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 70
quick刀斩乱麻
follow for more
展开
-
机器学习可解释性
shapley valuesMachine Learning Explainability原创 2021-02-27 21:47:02 · 82 阅读 · 0 评论 -
linear regression & logistic regression
Linear Regression假设函数:成本函数:真实值与预测值之间会有误差():,假设误差独立且具有相同分布(均值为0,方差为的高斯分布),最小化误差:最小二乘法 梯度下降法Logistic Regression通过加入非线性变化的sigmoid函数,将线性回归的分值转化为概率将转化为损失函数:sklearn参数:神经网络LR:Referencemaximum likelihood estimates, log...原创 2021-01-30 23:57:09 · 143 阅读 · 0 评论 -
神经网络学习
神经网络学习是机器学习和神经网络两个学科领域的交叉部分:在生物神经网络中......;由此抽象而成的“M-P神经元模型”中,神经元接受到来自n个其他神经元传递来的输入信号(通过带权重的连接进行传递),然后将总输入值与神经元的阈值进行比较,再通过activation function处理以产生该神经元的输出。activation function:阶跃函数,sigmoid函数...(ref)perceptron(单层感知机): 两层神经元,输入层接收外层输入信号后传递给输出层,输出层是M-P神经元..原创 2021-01-22 13:55:32 · 562 阅读 · 0 评论 -
模型评估
评估方法1.留出法(hold-out):将数据集划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集分层采样(stratified sampling): 保留类别比例的采样方式2.交叉验证法:将数据集划分为k个大小相似的互斥子集(分层采样),每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集;由此获得k组训练/测试集,并进行k次训练和测试留一法(leave-one-out):划分的互斥子集个数=数据集的样本数3.自助法:有放回抽样pros: 数据集小,难.原创 2020-11-11 14:26:04 · 113 阅读 · 0 评论 -
朴素贝叶斯
Background1. 贝叶斯定理:关于随机事件A和B的条件概率的一则定理,公式如下:P(A)是A的先验概率,之所以称为“先验”是因为它不考虑任何B方面的影响 P(B)是B的先验概率 (prior probability) P(A|B)是A的后验概率,之所以称为“后验”是因为它是已知B发生后,A的条件概率(得自B的取值) P(B|A)是B的后验概率 (posterior probability),也称为B的似然性(likelihood)2. 贝叶斯分类是一类分类算法的总称,这类...原创 2020-10-10 15:04:35 · 112 阅读 · 0 评论 -
特征工程-降维
高维灾难:高维下(特征值个数大),样本密度稀疏,模型容易过拟合,泛化能力弱PCA(有监督):通过某种线性投影,将高维数据映射到低维空间,并期望在所投影的维度上数据的方差最大LDA(无监督):依赖目标类别变量(将目标变量的类别区分开),投影后类内方差小,类间方差大...原创 2020-09-24 14:19:57 · 70 阅读 · 0 评论 -
特征工程-异常值
3 sigma法:正态分布关于均值μ对称,数值分布在(μ-σ,μ+σ)中的概率为0.6827,数值分布在(μ-3σ,μ+3σ)中的概率为0.9973。也就是说只有0.3%的数据会落在均值的±3σ之外,这是一个小概率事件。箱型图法:正态分布的参数μ和σ易受到个别异常值的影响,从而影响判定的有效性,因此产生了箱型图法。IQR,即四分位间距Q3-Q1。(Q1, Q3)涵盖了数据分布最中间的50%的数据,具有稳健性。数据落在 (Q1-1.5*IQR, Q3+1.5*IQR) 范围内,则认为是正常值...原创 2020-09-24 14:20:08 · 480 阅读 · 0 评论 -
决策树和随机森林
信息熵:衡量一个随机变量取值不确定性的指标,信息熵越大则不确定性越大,信息熵越小则不确定性越小条件熵:已知随机变量X的情况下随机变量Y的不确定性信息增益:给定X能够使随机变量Y的确定性增加的程度(信息熵-条件熵)构建过程:计算当前节点的信息熵及各个特征的条件熵 计算各个特征的信息增益 确定当前节点的分支特征何时停止分支:某个节点的信息熵小于某个阈值时,停止对该节点的分支操作,将该节点作为叶子节点;叶子节点的样本集中,占比最大的一类为该叶子结点的类别 算法异同:C4.5划分节点时采用的原创 2020-09-05 10:52:48 · 158 阅读 · 0 评论 -
k-means
原理:初始随机选取k个中心点; 遍历每个样本,选取距离该样本最近的中心点,归为该类; 更新中心点为每类的均值; 迭代(2)(3),直至达到迭代次数或误差小于阈值适用条件:不适用于非凸面形状的簇或大小差别很大的簇需要实现确定簇数 / 对初始质心敏感 / 局部最优解(SSE为非凸函数)k的确定:行业经验确定 vs. 数据的真实聚类数Elbow method:核心指标:SSE (预测值为样本点,真实值为质心,SSE为所有样本的聚类误差) 核心思想:随着聚类数k的增..原创 2020-09-04 17:01:23 · 197 阅读 · 0 评论 -
Ensemble Learning
1.Bootstrap aggregating利用bootstrap方法从整体数据集中抽样出N个数据集,在每个数据集上学习出一个模型,最后的预测结果利用N个模型的输出得到(分类问题采用N个模型预测投票的方式,回归问题采用N个模型预测平均的方式)随机森林就属于Bagging:两个随机采样的过程:分别对输入数据的行(数据的数量)与列(数据的特征)进行采样。对于行采样,采用有放回的方式,若有N个数据,则采样出N个数据(可能有重复),这样在训练的时候每一棵树都不是全部的样本,相对而言不容易出现overfit原创 2020-09-03 16:20:05 · 153 阅读 · 0 评论