2020年03月_一只干巴巴的海绵

原创【ML】高斯混合模型GMM（生成模型）

高斯混合模型GMM（生成模型）高斯混合模型（Gaussian Mixture Model）是一种业界广泛使用的聚类算法，该方法使用了高斯分布作为参数模型，并使用了EM算法进行训练。高斯分布高斯分布是一种常用的连续变量分布的模型。若单个随机变量xxx服从均值为μ\muμ，方差为σ2\sigma^2σ2的高斯分布，记为x N(μ,σ2)x~\mathcal{N}(\mu,\s...

2020-03-31 14:09:53 2511 1

原创非参数统计中的核平滑方法/Kernel smoother

Kernel Smoother 核函数Khλ(X0,X)K_{h_\lambda}(X_0,X)Khλ(X0,X)定义为Khλ(X0,X)=D(∣∣X−X0∣∣hλ(X0))K_{h_\lambda}(X_0,X)=D(\frac{||X-X_0||}{h_\lambda(X_0)})Khλ(X0,X)=D(hλ(X0)∣∣X−X0∣∣)其中，X,X0∈RpX,X_0\...

2020-03-29 14:42:00 7965 1

原创【ML】极限梯度提升算法XGBoost（Extrme Gradient Boosting）

极端梯度提升XGBoost XGBoost属于boosting集成学习方法，其基学习器的学习是串行的。CART回归树的加法模型：y^=ϕ(x)=∑i=1Kfk(x),fk∈F\hat{y}=\phi(x)=\sum_{i=1}^K f_k(x),\quad f_k\in \mathcal{F}y^=ϕ(x)=i=1∑Kfk(x),fk∈F其中，F={f(x)=wq(x)}(q:Rm...

2020-03-25 21:37:04 3805

原创【ML】提升树、梯度提升决策树GBDT

梯度提升GB梯度提升树GBDTXGBoost

2020-03-25 09:00:47 305

原创【ML】AdaBoost（Boosting集成）

AdaBoost是一种Boosting集成算法，对分类正确的样本降低了权重，对分类错误的样本升高或保持权重不变，在最后进行融合模型的过程中，也根据错误率对模型进行加权融合。

2020-03-23 14:51:16 245

原创【ML】降维：LDA线性判别分析

PCA主成分分析无监督降维。目标是降维后的数据方差尽可能的大。作用：聚类：把复杂的多维数据点，简化成少量数据点，易于分簇。降维：降低高维数据维度，简化计算，达到数据降维、压缩、降噪的目的。PCA的原理将原有的ppp维数据集，转换为kkk维数据，k<pk<pk<p。寻找当前所在的ppp线性空间的一个kkk维线性子空间，在这个kkk维空间表示这些数据（将数据...

2020-03-22 22:03:18 361

原创【ML】聚类：Kmeans算法与DBSCAN算法

聚类是无监督学习问题，没有标签，难点在于模型评估及调参。Kmeans聚类算法假设我们想要将数据聚类成KKK个组，K-means方法的工作流程为:首先选择KKK个随机的点，称为聚类中心（cluster centroids）或质心;对于数据集中的每一个数据，按照距离KKK个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类；计算每一个组的平均值，将该组质...

2020-03-21 22:52:33 709

EM算法（Expectation Maximization Algorithm，期望极大算法）是一种解决优化问题的迭代算法，用于求解含有隐变量的概率模型参数的极大似然估计（MLE）或极大后验概率估计（MAP）。EM算法是一种比较通用的参数估计算法，被广泛用于支持向量机（SMO算法）、朴素贝叶斯、GMM（高斯混合模型）、K-means（K均值聚类）和HMM（隐马尔科夫模型）的参数估计。理解EM...

2020-03-21 19:14:15 1884

原创【ML】支持向量机SVM：线性可分与非线性可分、硬间隔与软间隔

支持向量机（support vector machine, SVM）是一种二分类模型。线性可分支持向量机与硬间隔最大化线性支持向量机与软间隔最大化非线性支持向量机与核函数给定训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)}T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}T={(x1,y1),(x2,y2),...,(xn...

2020-03-20 17:40:59 1450

原创 LDA主题模型

主题模型主题模型（topic model）是以非监督学习的方式对文集的隐含语义结构（latent semantic structure）进行聚类（clustering）的统计模型。主题模型主要被用于自然语言处理（Natural language processing）中的语义分析（semantic analysis）和文本挖掘（text mining）问题，例如按主题对文本进行收...

2020-03-20 13:52:00 1696

原创 Beta分布&二项分布, 狄利克雷分布&多项式分布

共轭分布由贝叶斯定理，我们知道p(θ∣x)∝p(x∣θ)p(θ)p(\theta|x)\varpropto p(x|\theta)p(\theta)p(θ∣x)∝p(x∣θ)p(θ)如果Θ\ThetaΘ的先验分布p(θ)p(\theta)p(θ)和后验分布p(θ∣x)p(\theta|x)p(θ∣x)属于同一分布族，那么就称先验分布p(θ)p(\theta)p(θ)和后验分布p(θ∣x)...

2020-03-19 16:38:38 1545

原创核函数概念及简要性质理解

核函数定义《统计学习方法》中给出的核函数的定义为：设X\mathcal{X}X是输入空间（欧式空间Rn\mathbb {R}^nRn的子集或离散集合），H\mathcal{H}H为特征空间（希尔伯特空间），如果存在一个从X\mathcal{X}X到H\mathcal{H}H的映射ϕ(x):X→H\phi(x): \mathcal{X}\rightarrow\mathcal{H}ϕ(x...

2020-03-19 12:31:44 4446

转载数字图像

什么是图像？图像是二维或三维景物呈现在人们眼中的影像。例如人眼所见景物，照片，电视电影等。更确切地说，图像是用各种观测系统以不同形式和手段观测客观世界而获得的，可以直接或间接作用于人眼并进而产生视知觉的实体物理图像与数字图像客观世界中，以自然形式呈现出的图像通常称作物理图像（也叫做连续图像，图像信号值是连续变化的）。计算机并不能直接处理物理图像~！因为计算机只认识离散数字，所以一幅...

2020-03-18 16:19:34 1351

原创 jieba分词库的安装与使用

Anaconda安装jiebaGitHub: jieba方式一：直接在Anaconda Prompt输入：conda install -c conda-forge jieba。方式二：1.下载jieba压缩包：jieba2. 将压缩包解压到anaconda下的pkgs目录下，3. 进入pkgs目录下的jieba-0.39（或其他版本），打开命令行窗口（shift+右键），输入pyth...

2020-03-16 10:06:45 2908

原创【ML】朴素贝叶斯模型及文本分类

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯模型的参数设输入空间X⊆Rn\mathcal{X}\subseteq\mathcal{R}^nX⊆Rn为nnn维向量的集合，输出空间为类标记集合Y={c1,c2,...,cK}\mathcal{Y}=\{c_1,c_2,...,c_K\}Y={c1,c2,...,cK}。XXX是定义在输入...

2020-03-15 15:02:42 428

原创【ML】随机森林（Bagging集成）

随机森林算法要点概述：随机森林的构建，如何体现随机，为什么要进行随机采样，为什么要有放回抽样，随机森林的优点与缺点

2020-03-14 18:47:14 684

原创【ML】集成学习Bagging、Stacking、Boosting

Boosting与Stacking的区别Stacking模型融合Python实现

2020-03-14 16:55:34 702

原创【ML】决策树：ID3与C4.5、CART回归树，决策树剪枝

- 决策树（decision tree）是一种基本的分类与回归方法。- ID3、C4.5、CART- 决策树的剪枝

2020-03-11 21:10:53 554

原创 Python文件读写

os模块在Windows上，文件的路径分隔符是’\’，在Linux上是’/’。os.sep根据你所处的平台，自动采用相应的分隔符号。import ospath = 'data' + os.sep + 'LogiReg_data.txt'[out]'data\\LogiReg_data.txt'data_dir = os.sep.join(['hello', 'world']) [o...

2020-03-07 13:14:35 475

原创分类模型性能评价指标：混淆矩阵、F Score、ROC曲线与AUC面积、PR曲线

以二分类模型为例：二分类模型最终需要判断样本的结果是1还是0，或者说是positive还是negative。混淆矩阵(Confusion Matrix) 评价分类模型性能的场景：采集一个称之为测试集的数据集：测试集的每一个样本由特征数据及其相应的分类结果组成（注：该数据集在建立分类模型时未使用，也就是说，测试集对建立的分类模型来说是未知的）；将测试集中的特征数据输入到建立的分类模型中...

2020-03-06 20:01:59 2342

原创【ML】逻辑回归模型及其Python实现

逻辑回归是一种经典的二分类算法。广义线性模型{yi∼indep.fYi(yi)fYi(yi)=exp{[yi−γi−b(γi)]/τ2−c(yi,τ)}E[yi]=μig(μi)=xiTβ\begin{cases}y_i\sim indep.f_{Y_i}(y_i)\\f_{Y_i}(y_i)=exp\{[y_i-\gamma_i-b(\gamma_i)]/\tau^2-c(y_i,\t...

2020-03-04 23:03:45 462

原创【ML】线性回归及梯度下降法

线性回归模型：参数估计推导，梯度下降求解

2020-03-04 18:35:47 247

原创 Python实现：Hold-Out、k折交叉验证、分层k折交叉验证、留一交叉验证

模型在统计中是极其重要的，可以通过模型来描述数据集的内在关系，了解数据的内在关系有助于对未来进行预测。一个模型可以通过设置不同的参数来描述不同的数据集，有的参数需要根据数据集估计，有的参数需要人为设定（超参数）；一个数据集也可以通过多个多个模型进行描述，不能说哪个模型是最好的，其他模型都是不可取的。数据集可以看做变量的具体实现，描述数据集的内在关系，实则是描述变量之间关系，进而对我们感兴趣...

2020-03-03 23:05:43 5355

原创偏差与方差，经验误差与泛化误差、过拟合与欠拟合

偏差(Bias)与方差(Variance) 记协变量为XXX，预测变量为yyy，设XXX和yyy之间的关系可通过模型y=f(X)+ϵy=f(X)+\epsilony=f(X)+ϵ，其中误差项、ϵ、\epsilon、ϵ服从均值为0的正态分布，即ϵ∼N(0,σϵ)\epsilon\sim\mathcal{N}(0,\sigma_\epsilon)ϵ∼N(0,σϵ)。设通过某个统计模型得到f...

2020-03-03 19:53:03 2371 1

Explore