自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 问答 (3)
  • 收藏
  • 关注

原创 鲁棒主成分分析RPCA

WHY?传统的PCA算法对于噪音敏感,于是有人提出了RPCA将一个含有稀疏噪声的数据矩阵分解为低秩矩阵和稀疏噪音矩阵两部分。WHAT?HOW?CODEimport numpy as npimport pandas as pd''' Y数据矩阵 alpha 步长 pre 收敛的精度 r 低秩为多少'''def RPCA(Y,alpha=0.75,pre=0.117,r=245): m,n =Y.shape #先对Y进行奇异值分解,选取前r个奇异值与前r个

2021-10-11 16:30:13 2235 1

原创 深度学习之权重衰退

一 . 什么是权重衰退模型在训练的过程中可能过拟合,这一般是由于数据复杂度太低而模型容量太大导致的,简而言之就是数据太简单,模型太复杂,模型学习到了数据的一切,包括噪音。此时,权重往往会很大(受噪音影响),显然模型并没有训练到最优(虽然它记住了训练数据的一切,但是对于新的样本泛化能力很差)。所以,我们想要适当降低权重,使模型接近最优,这样模型的泛化性能提升就适当的解决了过拟合问题,这就是权重衰退。二. 详细内容...

2021-10-08 09:57:31 735

原创 层次聚类AGNES与DIANA

1. AGNESAGNES是一种采用自底向上合并策略的聚类算法,其思想为:初始将所有样本看成一个簇,然后在每一轮过程中将距离最近的两个簇合并为一个簇,簇的个数不断减少到人为指定的聚类簇数K,终止算法。该算法关键在于如何度量两个簇的距离,集合间的距离计算有如下方式:最小距离:dist(Ci,Cj)=min[x∈Ci,z∈Cj]∣∣x−z∣∣2最大距离:dist(Ci,Cj)=max[x∈Ci,z∈Cj]∣∣x−z∣∣2平均距离:dist(Ci,Cj)=1∣Ci∣∣Cj∣∑x∈Ci∑z∈Cj∣∣x−z∣∣2

2021-07-29 17:23:41 1471

原创 密度聚类DBSCAN

1.相关概念DBSCAN是基于密度的聚类算法,该类算法假设聚类结构能够通过样本分布的紧密程度确定(样本密度均匀分布),它通常考虑的是样本之间的可连接性,并以最大连接性确定聚类簇。要搞懂该算法,首先要理清楚几个概念:邻域:对于样本xi∈Dx_i \in Dxi​∈D,其邻域包含样本集D中距离xix_ixi​不超过ϵ\epsilonϵ的样本,即Nϵ(xi)={xj∈D∣dist(xi,xj)≤ϵ}N_\epsilon(x_i)=\{x_j \in D | dist(x_i,x_j) \leq \epsil

2021-07-27 11:55:02 280

原创 K-means及其改进

一. k-means1.算法流程给定数据样本集D={x1,x2,...,xm}D=\{x_1,x_2,...,x_m\}D={x1​,x2​,...,xm​},k-means欲将DDD划分成K个簇C={c1,c2,...,ck}C=\{c_1,c_2,...,c_k\}C={c1​,c2​,...,ck​}并且簇之间没有交集。其目标是最小化平方误差和:E=∑i=1k∑x∈ci∣∣x−ui∣∣22\begin{aligned}E=\sum_{i=1}^k\sum_{x\in c_i}||x-u_i|

2021-07-19 15:51:12 2182 1

原创 非线性支持向量机及代码

1.问题引入我们讨论的线性支持向量机模型,是假设其训练样本是线性可分的,即存在一个超平面将两个类完全分开。然而在现实任务中,或许样本空间根本就不存在一个超平面能进行分类。下图是不存在分类超平面的例子:为了解决这个问题,可以将样本从原始空间映射到一个更高的特征空间,使得样本在高维的特征空间变得线性可分。映射到高维一定能线性可分吗?幸运地是,如果原始空间是有限的,则一定存在一个特征高维空间使得样本线性可分。我们定义映射ϕ(x)\phi(x)ϕ(x)将xxx从m维空间映射到n维空间(n>m),于是在

2021-07-17 16:13:18 559 2

原创 软间隔支持向量机

1. 软间隔前文中讲到的线性支持向量默认样本数据集是线性可分的,即存在一个超平面能将两个类别的数据完全分开。然而,现实任务的样本很难找到合适的核函数来使得样本在特征空间中线性可分。解决该问题的思路是:允许出现一些错误,并且要使得间隔最大的同时,错误最小化。上图是软间隔的示意图,红色圈出来的点是分类错误的点,在错误最小化的同时也能找到间隔最大的超平面。对比之下,我们知道线性支持向量机要求所有样本都分类正确,即:yi(wTxi+b)≥1\begin{aligned}y_i (w^Tx_i+b) \g

2021-07-12 15:51:07 3402 1

原创 线性支持向量机

1. 线性SVM模型线性支持向量机的思想非常朴素:用一个超平面将两类数据分割开来。如上图,这样的超平面有无数个,选择哪个超平面更好呢?从上图可以看出,平面①会将红色的两个数据分错,平面②则不会,这是因为平面②将两边的间隔分得更大。所以,我们应该选择将两边间隔分割得最大的超平面。设超平面为wTx+b=0w^Tx+b=0wTx+b=0,类别标记yi∈[−1,1]y_i\in[-1,1]yi​∈[−1,1]。现将超平面上下平移,直到有数据穿过为止,此时wTxi+b=1或wTxi+b=−1w^Tx_i+b=

2021-07-06 19:39:29 2040

原创 朴素贝叶斯

1.贝叶斯公式已知随机事件A、B发生的概率P(A)和P(B),以及A发生条件下B发生的概率P(B|A),那么B发生的条件下A发生的概率为:P(A∣B)=P(A)P(B∣A)P(B)\begin{aligned} P(A|B)=\cfrac{P(A)P(B|A)}{P(B)}\end{aligned}P(A∣B)=P(B)P(A)P(B∣A)​​贝叶斯公式有何实际意义?我们看个癌症的实例:某城市有足够多的人群作为样本,人群中得癌症的概率为0.005,其中得癌症检测结果为阳性的概率为0.9,而未

2021-06-16 21:29:17 89 1

原创 决策树算法(ID3,CART,C4.5)

一 基本流程1. 决策树思想在生活中,我们如何判别一个学生是否优秀?我们可能先会判断其成绩如何、再判断其能力如何、再判断其形象如何,判断等等属性,最后得出结论他优秀或不优秀。而且判别流程因人而异,不唯一。决策树思想也是如此: 根据当前结点的数据集和属性集,选择一个最佳的属性将数据集划分出几个子集作为当前结点的孩子结点,孩子结点数据集和属性集是父结点的子集且再重复上述过程,直到产生叶节点,此时叶结点的数据尽可能地属于同一类。如下图是一个决策树的例子:可以观察到,判断一个学生是否优秀有多条路径,这与我

2021-06-11 21:13:54 335 2

原创 线性判别分析LDA

一 LDA简介1.点在直线上的投影先回顾一下几何的知识,因为LDA采用了向量投影的方式将样本点投影在直线上。假设P点是一个样本,我们想把P点投影到绿色的虚线上。考虑用向量投影,即OP→\overrightarrow{OP}OP投影到 OM→\overrightarrow{OM}OM上,投影为∣OM→∣=∣OP→∣cosθ=∣OP→∣OP→∗OM→∣OP→∣∣OM→∣=OP→∗u→|\overrightarrow{OM}|=|\overrightarrow{OP}|cos\theta=|\overri

2021-06-09 14:06:52 366

原创 Apriori算法详解

一 相关概念1.频繁项集挖掘支持率: 一个项集III在事务集合Γ={T1,T2,…,Tn}\Gamma=\begin{Bmatrix}T_1,T_2,\ldots,T_n\end{Bmatrix}Γ={T1​,T2​,…,Tn​​}中包含子集III的事务占全体事务的比例称之为支持率。事务序号项集1{A,B,E}2{D,E,F}3{A,C,D,E}4{D,E,F}5{C,E,F}在上述事务集合中,项集{A,E}的支持率是2/5=0.4,项集{E

2021-06-06 13:57:28 9169 1

原创 逻辑回归(对数几率回归)

一 概述1. 广义线性模型一般得到的线性模型为: y=wTx+by=w^Tx+by=wTx+b。但是,我们通常希望线性模型的预测值能够逼近实际值,故会对y进行处理。例如,对数回归:lny=wTx+bln y =w^Tx+blny=wTx+b,这里的对数函数起到了将预测值和实际标记联系起来的作用。推广到一般,考虑单调可微函数g(⋅)g(\cdot)g(⋅),令g−1(⋅)g^{-1}(\cdot)g−1(⋅)表示其反函数,有:y=g−1(wT+b)\begin{aligned} y = g

2021-06-05 14:12:27 597

原创 线性回归概述

一 概念1 线性模型的基本形式给定n个属性描述的记录x=(x1,x2,...,xn)T,xx=(x_1,x_2,...,x_n)^T,xx=(x1​,x2​,...,xn​)T,x是n维列向量,线性模型试图得到一个属性的线性组合来描述预测函数,即f(x)=w1x1+w2x2+......+wnxn+b\begin{aligned} f(x)=w_1x_1+w_2x_2+......+w_nx_n+b\end{aligned}f(x)=w1​x1​+w2​x2​+......+wn​xn​+b​

2021-05-28 18:55:30 173

原创 离散序列的相似性度量

一 前言离散序列通常是字符串序列,一个字符表示一种标签或者等级。这与定量型数据的相似性度量不同,定量型数据可以采用距离函数来度量相似度,而离散序列一般不具有数值计算的特性。故而,我们对离散序列的相似度量通常采用字符串比较的方法,本文讨论的是编辑距离和最长公共子序列。二 编辑距离编辑距离是将一个字符串转化为另一个字符串所使用一系列插入、删除和替换操作所需要的最小代价。 例如,将 ababab 转化成 bababa 最少需要两次:第一次删除第一个a,第二次在尾端插入一个a。假设删除和插入的成本都是1,那么

2021-05-25 16:29:33 1401

原创 欧式距离和马式距离的区别

前言为什么要讨论这两个距离之间的区别?因为,距离函数的选择对数据挖掘算法的效果具有很大的影响,使用错误的距离函数对挖掘过程非常有害。有时候,语义非常相似的对象被认为不相似,而语义不相似的对象却被认为是相似的,这都是因为距离函数选择不佳导致的。这篇文章就是想告诉大家欧式距离不是万能的,距离函数的选择应该随应用场景而定。欧式距离设有两个n维数据点X=(x1,x2,...,xn)TX=(x_1,x_2,...,x_n)^TX=(x1​,x2​,...,xn​)T和Y=(y1,y2,...,yn)TY=(y

2021-04-20 18:26:53 13102

原创 多维尺度分析MDS详解

一 概述MDS的初衷是将图结构中的距离在空间的一种表示。例如,已知几个城市的距离,但是不知道城市的坐标,那么MDS就能通过距离矩阵转换成空间坐标向量来近似描述距离。更重要地是,MDS可以更广泛地应用于任意类型的数据实体相似度或距离描述在低维空间的表示。多维尺度分析MDS的基本思想:用低维空间Rk (k<n)的n个点去重新标度高维空间Rn 的n个实体间的距离或者相似度。将高维空间的n个研究对象简化到低维空间处理,并且保留高维空间中n个对象较高的相似度。MDS是主要分为两类:度量化多维尺度分析(经典

2021-04-19 14:55:18 6195 1

原创 奇异值分解SVD

一 特征分解线性代数中有个定理:实对称矩阵A(A=AT)一定可以相似对角化于对角矩阵Σ,且一定存在一个正交矩阵Q,通过对A进行正交变换使得其变换为对角阵,即下述公式成立:上述公式中,Q的列向量是矩阵A的特征向量,λ是矩阵A的特征值。将矩阵A分解为特征向量矩阵Q(也是正交矩阵)和特征值矩阵Σ的过程叫作特征分解。很显然,这样的分解是具有局限性的:分解的对象必须是方阵分解的对象必须是对称的那么,如果给出的矩阵A是m*n阶的一般矩阵,是否能对其进行特征分解?答案是可以的,奇异值分解SVD就是实现一

2021-04-11 16:44:41 3696

原创 QR法求解特征值特征向量

一 QR原理理论依据:任意一个非奇异矩阵(满秩的方阵)A都可以分解为一个正交矩阵Q和一个上三角矩阵R的乘积,且当R对角元符号确定时,分解是唯一的。QR分解是一种迭代方法,迭代格式如下: 当Ak基本收敛到为上三角矩阵时,迭代完成,此时主对角元素就是特征值。特别地:当A是对称阵的时候,Ak是对角阵Λ,Q=Qk-1Qk-2…Q1就是其正交特征向量矩,有QTAQ=Ak=Λ,即A正交对角化与Ak。如何理解?我们看下图公式:所以,QR迭代过程从数学的角度来想其实就是不断正交化的过程。二 QR算法步骤

2021-04-05 23:46:36 21621 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除