![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
下一秒,待续
下一秒
展开
-
1.线性回归与非线性回归
线性回归叙述:线性回归就是针对回归问题的一种线性模型。特点:简单优雅,模型本身拟合样本能力不强,通常需要深层次的特征。线性回归模型一般形式:定义代价函数(损失函数):对损失函数的一些解释:假定误差服从中心极限定理,说明了误差进行叠加最后趋近于标准正态分布,先对误差建立极大似然估计,然后引入到样本上,最终求解得到损失函数。ps:中心极限定理假定每个样本需要满足均值为u...原创 2019-02-23 11:29:36 · 3109 阅读 · 1 评论 -
机器学习面试(一)
1.甚么叫极大似然估计?思想:让样本出现的概率最大化。2.判别式模型和生成式模型?生成式模型先需要对联合概率分布进行建模,然后计算后验概率来得到模型。判别式模型直接用条件概率分布或者决策函数作为模型。生成式模型:朴素贝叶斯、、贝叶斯网络、混合高斯模型、K-MEANS、隐马尔可夫模型、马尔科夫随机场 、主题模型(LDA & PLSA)判别式模型:线性回归、逻辑回归模型...原创 2019-03-05 22:49:26 · 1817 阅读 · 0 评论 -
PCA降维
复习矩阵相关:实对称阵的不同特征值对应的特征向量一定是正交的,解释:因为在特征值分解的过程其实就是对协方差矩阵进行对角化,去除线性相关信息,也就是冗余信息,所以才会说它的特征向量一定是正交的!ps:求特征值的过程就是去除线性相关的过程,去除冗余特征的过程,对角化方阵的过程。PCA介绍PCA就是降维,通常在数据特征特别多,可能会存在冗余特征,这时候PCA降维就派上用场了。p...原创 2019-03-28 19:28:39 · 453 阅读 · 0 评论 -
读(程序员的数学 3 线性代数)-记录
目录第一章:用空间的语言表达向量、矩阵和行列式(向量,矩阵性质以及运算,行列式性质以及运算)第二章:秩、逆矩阵、线性方程组(溯因原理)(初等行变换解线性方程组、逆矩阵、秩,以及逆矩阵和相关不相关问题)第三章:特征值、对角化(对角化介绍,求解特征值、特征向量、可逆的特征矩阵)第一章:用空间的语言表达向量、矩阵和行列式1.向量列向量:向量的运算:(加法和乘法...原创 2019-05-03 10:18:36 · 1883 阅读 · 3 评论 -
读(程序员的数学 2 概率统计)-记录
目录:第一章:概率的定义(随机变量,概率分布)第二章:多个随机变量之间的关系(联合概率,边缘概率,独立性,条件概率以及在贝叶斯上的应用)第三章:离散值的概率分布(期望,方差,标准差,大数定理)第四章:连续值的概率分布(概率密度函数,概率分布函数以及随机变量的变换,联合概率分布函数,高斯分布以及中心极限定理)第五章:协方差矩阵、多元正态分布与椭圆(协方差和相关...原创 2019-05-01 16:33:27 · 1568 阅读 · 0 评论 -
4.提升之梯度提升树(GBDT)
1.提升树提升方法采用加法模型与前向分步算法,是以决策树为基分类器。ps:这里的决策树指CART树。主要思想:对于提升树算法,简单来说就是每一步会拟合前一步的残差。ps:只有当损失函数是均方误差的时候,每一步是拟合的残差,对于其他损失函数却不是。提升树模型:计算每个数据的残差:通过残差学习一颗回归树:(构建树的过程)然后更新树模型:一直迭代直...原创 2019-02-27 22:25:08 · 820 阅读 · 1 评论 -
机器学习面试(二)
1.为什么需要对数值型特征做归一化?(变为一个简单的分布学习在学习一个复杂分布时更加快速,可以使学习收敛更快,减弱离群点的影响,让模型更加鲁棒降低过拟合的风险。对树模型无效,分类树和回归树都一样没有作用,只有使用梯度下降类型的模型效果好。)2.特征组合?(可以根据决策树根结点到叶节点的路径来进行构建,可以找到不同划分下的最优特征组合;可以直接暴力多项式组合;可以基于业务...原创 2019-05-11 15:47:29 · 416 阅读 · 0 评论 -
交叉熵损失和合页损失(分析)
1.合页损失函数合页损失函数:是一种带有置信度的损失函数。ps:可满足性比较容易达到。ps:用svm的置信区间来进行比较。它的通用表达式为: 带有软间隔的线性SVM,它最初的损失函数:经过约束变形得到:函数进一步可写为:进一步:SVM的损失函数可以看为L2正则项和合页损失函数之...原创 2019-03-25 19:21:44 · 906 阅读 · 0 评论 -
马尔可夫过程和马尔科夫链 + MCMC采样与Gibbs采样 + 马尔科夫随机场和条件随机场描述
0.马尔可夫过程马尔可夫性质:无后效性或者!就是说下一刻的状态只和我这一刻的状态有关,和我之前的状态是没有关系的马尔可夫过程的公式:马尔可夫过程:比如,荷花池中一只青蛙的跳跃,液体中微粒所作的布朗运动,传染病受感染的人数,原子核中一自由电子在电子层中的跳跃,人口增长过程、闯迷宫的老鼠等都可视为马尔可夫过程。1.马尔科夫链马尔可夫链MC(Markov Chain)是指...原创 2019-03-09 00:48:17 · 1443 阅读 · 0 评论 -
2.决策树和随机森林
1.决策树简述决策树通过树形模型可以对样本进行分类或者回归,模型的非线性性质强,对样本和特征的适应能力比较强。决策树(DT)著名的有ID3决策树,C4.5决策树,CART决策树。2.决策树构建准则的介绍信息熵:代表了随机变量的不确定度的程度,值越大不确定性越大,值越小不确定性越小越准确。n代表了n个类别,pi代表每个类别出现的概率。概率p代表属于第i个类别的概率为多少,信息...原创 2019-02-26 22:04:34 · 1789 阅读 · 0 评论 -
3.提升之XGBoost+lightgbm
1.XGBoost的简述引出XGBoost:xgboost是针对gbdt进行了改进,核心思想利用二阶导来代替一阶导,来拟合残差。ps:这个二阶展开的好处就是迭代的更快了,处理了一阶导的不足因为一阶导只是在斜率方向下降最快,他不一定就是最快的。也有缺点损失函数必须为二阶可导xgboost的构建过程:首先:它是按层进行分裂的,意思就是每次分裂,都会作用当前层的每一个节点(构建的是一...原创 2019-02-27 00:25:41 · 1094 阅读 · 1 评论 -
5.提升之AdaBoost
1.AdaBoost的简述AdaBoost是以向分步算法和加法模型为基础的,经典的AdaBoost是解决二分类问题的并且也以此来进行说明。ps:基分类器可以是任意的!算法思想:就是在训练第m个分类器时,根据第m-1个分类器分类的情况来更新第m个分类器的样本权重分布。ps:当样本被分错增大权值,当样本被分对减小权值,而分类器的权重是根据该分类器的表现也就是重要性。ps:第m个分类...原创 2019-02-28 00:27:49 · 184 阅读 · 2 评论 -
6.SVM总结
1.SVM(Support Vector Machine)简述主要思想是先让样本到分离超平面的距离最近,称这些点为支持向量,然后让这些支持向量到超平面的距离最大。也称这些支持向量为难分点,所以让这些点离超平面距离最大就代表了全体所有点都会分的不错。ps:线性可分支持向量机,适用于无噪声异常点的数据,学习目标为硬间隔最大化。ps:线性支持向量机,适用于有噪声,有异常值的数据,学习目标...原创 2019-03-01 23:07:53 · 156 阅读 · 0 评论 -
7.无监督学习之聚类总结
1.聚类简介主要思想就是对一堆未标记的样本,进行相似度度量,然后进行分簇的过程。ps:聚类属于无监督学习。2.样本距离的度量闵可夫斯基距离:ps:当p = 负无穷时,公式变为样本特征差值最小的绝对值,(可以提出最小项,然后化简得出)。ps:当p = 1时,公式变为样本特征之间距离绝对值求和,又称曼哈顿距离。ps:当p = 2时,公式变为欧氏距离。(最熟悉的一种)...原创 2019-03-03 00:39:38 · 1730 阅读 · 1 评论 -
8.无监督学习之EM算法
1.EM算法的简介引出EM算法:一般的极大似然估计可以解决没有“隐变量”数据样本的问题,但是实际中往往数据是含有“隐变量”的EM算法就是专门解决这种问题而引出的,它也是通过近似的极大似然估计求解含有隐变量的概率模型的参数。ps:专门求解含有隐变量的问题。算法的过程:第一步(E),求期望,第二步(M):求极大。ps:先初始化参数,然后对样本进行求隐变量的值,在对模型求期望,最...原创 2019-03-03 23:21:16 · 2663 阅读 · 0 评论 -
9.朴素贝叶斯到贝叶斯网
1.贝叶斯决策条件概率:ps:联想下条件熵,是对应的减法,而条件概率对应除法。全概率公式:贝叶斯公式:ps:后验概率:,先验概率:,似然(条件)概率:接下来构建贝叶斯分类器,计算给定样本A求属于B类的概率(后验概率)。ps:先验概率,统计样本的标签,当样本数量足够多时,可用频率来估计概率,ps:似然概率,需要对所有特征属性A进行求解,但是由于特征之间依赖性很多也很复...原创 2019-03-04 23:04:29 · 192 阅读 · 0 评论 -
(附)逻辑回归推导
逻辑回归简介:逻辑回归主要处理分类问题,属于线性模型,模型表达能力有限需要构建深层次的特征。ps:在推荐模型里对LR改进著名的有FM和FFM模型增加了特征自组合出更高维度的特征来加强模型的表达。ps:FM(因子分解机)对模型的参数以及对应的特征进行分解来达到特征组合的目的。ps:FFM(场感知因子分解机)对FM引入了场的概念对FM的计算域进行了限定(只会跟其余场的特征进行计算),提...原创 2019-03-06 13:12:46 · 333 阅读 · 0 评论 -
(附)最大熵模型介绍 + (信息论)熵的知识点
联合熵和条件熵熵:对不确定性的一种度量,不确定性越大熵值越大!(均匀分布是最不确定的分布)联合熵:两个随机变量X,Y进行或运算!条件熵:在Y确定的前提下,X发生带来的熵!(类似于条件概率,联合概率减去边缘概率而已)利用联合熵对条件熵的推导:相对熵(交叉熵,K-L距离)相对熵:衡量两个随机变量之间的距离交叉熵:对相对熵的形式进行变形互信息(信...原创 2019-03-07 00:27:29 · 1161 阅读 · 0 评论 -
10.隐马尔可夫模型(HMM)
1. 隐马尔可夫模型简介HMM属于生成式模型,是对联合概率进行建模。ps:判别式模型(计算条件概率分布)和生成式模型(计算联合概率分布)隐马尔可夫模型是对含有隐变量的马尔可夫序列链进行建模,主要用于时序数据建模,主要应用于语音识别和NLP。状态序列:yi表示第i时刻的系统状态,它是隐藏的不可被观测的,亦称“隐变量”。例如:Y表示大气层的变化!ps:需要预测的概率目标。观测序...原创 2019-03-08 00:49:30 · 3054 阅读 · 0 评论 -
11.主题模型概述(PLSA+LDA)
1.引出主题模型对于文本分类的问题出现了“一词多义”,“多词一义”,朴素贝叶斯无法解决!针对此,引出主题这个概念,通过主题,可以把一个词映射到多个主题中,可以把多个词映射到一个主题中去!ps:通过主题这个隐变量,来改善现存的问题!2.主题模型之pLSA(EM算法的应用)1.选定文档 2.通过文档选定主题 3.通过主题选定词ps:主要流程就是通过文档选择一个主题,根据主...原创 2019-03-08 17:05:28 · 932 阅读 · 0 评论 -
美团机器学习实践书籍
目录第一部分通用流程:第二部分:数据挖掘第三部分:搜索和推荐第四部分:计算广告第五部分:深度学习第六部分:算法工程第一部分通用流程:第一章:问题建模:评估指标,样本选择,交叉验证评估指标:分类指标、回归指标、聚类指标、排序指标分类指标:P-R曲线(P纵轴,R横轴、AP值),F1值,ROC曲线(纵轴正样本预测对的召回,横轴正样本预测错的召回、AUC值),对...原创 2019-05-20 01:46:44 · 1316 阅读 · 1 评论