langzhining-CSDN博客

原创梯度提升思想

1.模型要素1.提升模型（加法模型）Fm(xi)=∑j=1mαjGj(xi)=Fm−1(xi)+αmGm(xi)F_m(x_i)=\sum_{j=1}^{m}\alpha_jG_j(x_i)=F_{m-1}(x_i)+\alpha_mG_m(x_i)Fm(xi)=∑j=1mTj=Fm−1(xi)+Tm(xi)F_m(x_i)=\sum_{j=1}^{m}T_j=F_{m-1}(x_i)+T_m(x_

2016-09-29 08:36:02 976 1

原创第一、二章感知器和BP算法

一. 01阶跃神经元理论上可以通过多个神经元组合完成任意逻辑操作，但无法自动训练，原因是函数不连续，权重的一个微小改变可能导致感知器输出的完全反转，不能通过逐步修改权重和偏置来让网络接近期望二. Sigmoid神经元函数及导数形式： σ(z)=11+e−zσ′(z)=σ(z)(1−σ(z))\sigma(z)=\frac{1}{1+e^{-z}}\\\sigma^{'}(z)=\sigma(z)

2016-09-29 08:32:37 469

原创 SVD数据降维

1. SVD用于数据压缩Am×n=Um×rΣr×r(Vn×r)T=∑σiuivTiA^{m\times n}=U^{m\times r}\Sigma^{r\times r}(V^{n\times r})^T=\sum\sigma_iu_iv_i^T1）数学特征： a. r为矩阵的秩，转换坐标基底，表示矩阵A每行每列所用向量的最小维度 b. U和V称为左奇异矩阵和右奇异矩阵，都是单位正交阵，每个奇

2016-09-29 08:26:36 2404

原创 K-means

1. 聚类特点应用：a. 发现样本共同的群体cluster; b. 可作为监督学习中稀疏特征的预处理（进行特征分桶）; c. 发现图片边缘聚类使用的信息：样本与样本间的相似度，相似度评判指标有欧式距离（常用，2范数）、曼哈顿距离（1范数）、余弦距离（不能证明一定收敛，内积）Jaccard相似度，Pearson相似度，核函数映射后距离（做特征映射，如设置高阶项，非线性聚类，每两类的分类边界不是直线

2016-09-29 08:24:05 324

原创 Naive Bayes

2016-09-29 08:23:11 537

原创最大熵模型

1. 极大似然估计在机器学习中的应用在有监督学习中要求的是标签下的条件概率，极大似然学习的是概率分布PP，可把PP看作是条件概率，使用极大似然，得到概率模型应用模型：最大熵模型，逻辑回归在无监督学习中，标签不知道，只能在推导中使用极大似然估计的过程应用：EM算法（GMM模型）2. 熵熵是平均不确定性的独立，函数到值的映射（泛函） 1. 平均互信息量（衡量确定性）：I(X,Y)=H(X

2016-09-29 08:20:04 887

原创最大似然求损失函数

1.机器学习与最大似然关系在有监督学习中要求的是标签下的条件概率，极大似然学习的是概率分布PP，可把PP看作是条件概率，使用极大似然，得到概率模型典型应用：逻辑回归，最大熵模型1. 逻辑回归1.算法模型原理：每个样本映射到特征空间为一个点，找一条判定边界，与判断边界的相对位置决定了样本的类别，样本点离判定边界越远，类别越确定。 f(x)=sign(w⋅x+b)f(x)=sign(w\cdot

2016-09-29 08:17:33 1520

原创 SVM推导简述

1.SVM思路1.函数间隔和几何间隔：点距离分离平面的远近可以代表分类预测的确信度，在超平面w⋅x+b=0w\cdot x+b=0确定的情况下，|w⋅x+b||w\cdot x+b|表示点x距离超平面的远近，由于w,bw,b可以成比例改变，超平面不变，所以需要对分离平面法向量进行约束，因此定义函数间隔和几何间隔分别为：γ¯i=yi(w⋅xi+b)γi=yi(w⋅xi+b)||w||\bar{\gam

2016-09-29 08:15:31 324

原创矩阵分析与应用

1.重新理解Ax=bAx=b1.从矩阵A的行和列去分析有两种解释行视图理解：每行是一个超平面，各行的交点（面）是x的解，不相交x无解列视图理解：x为权重，对A的每列加权线性组合，即空间中向量相加（利用平行四边形法则）2.列视图理解线性相关和线性无关：二维：向量不共线；三维：向量不共面；若矩阵A列线性无关，则Ax=0的解只有x=0，此时A可逆3.四个基本子空间（A为m∗nm*n维矩阵）子空

2016-09-28 23:33:39 317

原创聚类算法

1. 聚类特点应用：a. 发现样本共同的群体cluster; b. 可作为监督学习中稀疏特征的预处理（进行特征分桶）; c. 发现图片边缘聚类使用的信息：样本与样本间的相似度，相似度评判指标有欧式距离（常用，2范数）、曼哈顿距离（1范数）、余弦距离（不能证明一定收敛，内积）Jaccard相似度，Pearson相似度，核函数映射后距离（做特征映射，如设置高阶项，非线性聚类，每两类的分类边界不

2016-07-13 10:59:21 125

原创 Naive Bayse

2016-07-13 09:29:42 77

原创最大熵模型

1. 极大似然估计在机器学习中的应用在有监督学习中要求的是标签下的条件概率，极大似然学习的是概率分布PP，可把PP看作是条件概率，使用极大似然，得到概率模型应用模型：最大熵模型在无监督学习中，标签不知道，只能在推导中使用极大似然估计的过程应用：EM算法（GMM模型）2. 熵熵是平均不确定性的独立，函数到值的映射（泛函） 1. 平均互信息量（衡量确定性）：I(X,Y)

2016-07-12 18:53:37 68

原创最大熵模型

1. 极大似然估计在机器学习中的应用在有监督学习中要求的是标签下的条件概率，极大似然学习的是概率分布PP，可把PP看作是条件概率，使用极大似然，得到概率模型应用模型：最大熵模型在无监督学习中，标签不知道，只能在推导中使用极大似然估计的过程应用：EM算法（GMM模型）2. 熵熵是平均不确定性的独立，函数到值的映射（泛函） 1. 平均互信息量（衡量确定性）：I(X,Y)=H

2016-07-12 13:58:51 65

原创 Naive Bayse

2016-07-11 14:03:47 185

原创特征工程与模型调优

一. 数据选择/清洗/采样1. 数据选择主要思考哪些数据对预测结果有用是否可以采集到线上实时计算时获取是否便捷如做商品推荐可从：店家、商品、用户三个角度去思考2. 数据格式化确定数据存储格式，关联hive表和hdfs文件夹3. 数据清洗该过程会花掉大部分时间，但也会使我们对业务有更为深入的理解，数据的好坏决定一个算法模型的上限主要操作有去除脏数据，如根据常识判断的不可信数据；补齐缺

2016-05-28 21:54:09 2148 2

langzhining的博客

原创梯度提升思想

原创第一、二章感知器和BP算法

原创 SVD数据降维

原创 K-means

原创 Naive Bayes

原创最大熵模型

原创最大似然求损失函数

原创 SVM推导简述

原创矩阵分析与应用

原创聚类算法

原创 Naive Bayse

原创最大熵模型

原创最大熵模型

原创 Naive Bayse

原创特征工程与模型调优

空空如也

空空如也