Indian Buffet Process(印度自助餐过程)介绍

近期,有人将本人博客,复制下来,直接上传到百度文库等平台。
本文为原创博客,仅供学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)

简介

无监督学习的目的是从观测数据中,发掘潜在的结构(latent structure)。无监督学习算法的一个关键问题是如何确定潜在结构的数目,如聚类中的类的数目,变量的数目等。以聚类为例,如果能够基于数据之间的内在关系,自动学习类的数目,要比通过经验设置一个数目要好的多。

相比参数化的贝叶斯模型,非参贝叶斯有其独特的地方,也是近些年来,机器学习比较火的一种方法,如DPMM(Dirichlet process mixture model)、层次DP过程(Hierarchical Dirichlet Processes)等。DPMM和HDP模型都是假设一个数据点只能分配到一个潜在类或者簇中(each datapoint is assigned to a latent class),即一个数据点。相反,无监督学习的一些模型中,假设一个数据点可以拥有多个特征,经典的模型有主成分分析(PCA)、因子分析(factor analysis)。从图(1)中可以看出每个数据点 x 对应一个所属的类 θ。 从图(2)中可以看出,每个数据点(顾客)只能被分配到一个类中(即一个顾客只能坐一张座子),在黑白格子的图中,行代表数据点(顾客),列代表隐特征(菜-类),可以看出,每一个数据点,在一行中,只有一个涂黑的。

关于中餐馆过程可以参考我写的另外的博客:
http://blog.csdn.net/qy20115549/article/details/52371443
也可参考相关论文(提供一篇中文的,一篇英文的):
Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.

周建英, 王飞跃, 曾大军. 分层 Dirichlet 过程及其应用综述[J]. 自动化学报, 2011, 37(4): 389-407.


这里写图片描述
图(1) 左图为DPMM 右图为HDP


这里写图片描述
图(2) 中餐馆过程

印度自助餐过程(Indian Buffet Process,IBP)是2005年提出的,其核心思想是一个数据点可用无限个二元特征表示,即数据点可以拥有多个隐性特征,且这些特征的概率和不为1。该过程定义了一个有限维行(数据点的个数)、无限维列(隐特征数目)的先验。从图3和图4中,可以看出,一个数据点可以拥有多个隐特征,形象的理解为一个自助餐馆中,一个顾客可以选择吃多个菜。


这里写图片描述
图(3) IBP过程


这里写图片描述
图(4) IBP过程

隐类别模型(Latent Class Models)

在隐类别模型中,一个数据点只能属于一个类别,主要包括有限混合模型和无限混合模型。

有限混合模型

假设有 N 个数据点,有K个类,其概率生成模型可以表示如下

θ|αDirichlet(αK,αK,,αK)

ci|θDiscret(θ)


这里写图片描述
这里写图片描述

这里写图片描述

利用多项式分布与Dirichlet共轭,有如下公式:


这里写图片描述
这里写图片描述

对隐变量 θ 进行积分得:


这里写图片描述

我们可以看到 p(c) 依旧服从Dirichlet分布。

无限混合模型

可以参考我这篇博客:http://blog.csdn.net/qy20115549/article/details/77905679
主要介绍的是DPMM。
也可看这两篇论文:
Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.

周建英, 王飞跃, 曾大军. 分层 Dirichlet 过程及其应用综述[J]. 自动化学报, 2011, 37(4): 389-407.

下面两个图,一个是有向图表示,一个是生成过程。


这里写图片描述


这里写图片描述

其对隐特征的抽样公式如下:

这里写图片描述

中餐馆过程

中国餐馆过程是一个典型的Dirichlet过程混合模型。可以将中国餐馆过程描述如下:
1.假设一个中国餐馆中,可以有无限个桌子。

2.来吃饭的第一位顾客坐了第一张桌子。

3.对于每一位顾客,都按照下面的规则来选择桌子坐下,对于第n个顾客:
(3.1)顾客选择坐在已经有人的桌子上,这样的概率为

nkα0+n1

其中, nk 表示第 k 个桌子上已经有的顾客数。n1表示在这个顾客之前,已有的顾客总数。
(3.2)顾客可以选择坐在一个没有人坐的桌子上 K+1 的概率为
α0α0+n1

在这里,可以将顾客类比成数据,将每一张桌子类别成类。

隐特征模型(Latent Feature Models)

印度自助餐过程(Indian Buffet Process)

简介

印度自助餐过程可以类比成: N 个顾客(表示 N 个数据)进入一个有无穷多菜品的自助餐馆进行选餐的过程,用 1 表示选择了该菜,用 0 表示没有选择该菜,一个用户可以选择多个菜,直到其餐盘满了。

在印度自助餐过程中,
(1): N 个顾客,一个接着一个进入餐馆,餐馆中的自助菜品排成一排供顾客选择。第一个顾客从左至右开始选择K1 个菜品,其中:

K1Poisson(α)

(2):对于第二个顾客及后面的顾客则存在两种情况:
(2.1)对于已被选择的菜品,该顾客按照选择该菜品的人数成正比的概率选择该菜品,即 mki ,其中 mk 表示选择第 k 个菜品的人数 。
(2.2)或者选择 Ki 个从未被其他顾客选择的菜品,其中:

KiPoisson(αi)

如下图所示:当 α=10 的情况。

这里写图片描述

Gibbs Sampling


这里写图片描述

K 时,得:

这里写图片描述

由贝叶斯公式可得后验为:


这里写图片描述

公式中的p\left ( X|Z \right )为数据似然,计算时,要根据数据的分布。

参考文献:
Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.

Griffiths T L, Ghahramani Z. The indian buffet process: An introduction and review[J]. Journal of Machine Learning Research, 2011, 12(Apr): 1185-1224.

Ghahramani Z. The Indian Buffet Process[J].

朱军, 胡文波. 贝叶斯机器学习前沿进展综述[J]. 计算机研究与发展, 2015, 52(1): 16-26.

  • 7
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Indian Pines数据集是一个常用的遥感图像数据集,用于地物分类和目标识别任务。该数据集由美国印第安纳大学在印度纳布亚地区采集得到。 Indian Pines数据集包含了1992年7月的航拍图像,以及相应地物类型的分类标签。影像分辨率为20m,并且由145×145个像素组成。每个像素点包含了来自16个波段(或频带)的光谱特征。这些波段包含了蓝光波段、绿光波段、红光波段、近红外波段等。 该数据集主要用于农业、环境和地理信息学相关研究领域。通过对数据集中的不同类型的农田、草地、森林等地物进行分类,可以帮助决策者了解土地利用情况,监测农作物的生长状况,以及预测农田产量。 此外,Indian Pines数据集还可以用于探索不同波段之间的光谱关系,并通过光谱特征提取方法进行地物分类。研究人员可以利用该数据集进行特征选择、图像分割、目标检测等遥感图像处理任务。 Indian Pines数据集的特点是多波段、高分辨率和多类别。但是该数据集也存在一些挑战,例如样本不平衡、噪声和遥感图像处理中常见的阴影问题。为了克服这些挑战,研究人员可以使用样本均衡和去噪等技术进行预处理,以提高分类和识别的准确性。 总之,Indian Pines数据集是一个重要的遥感图像数据集,用于地物分类和目标识别研究。它提供了丰富的光谱信息和不同地物类型的分类标签,为研究人员提供了广阔的研究领域。 ### 回答2: Indian Pines数据集是一个非常著名的遥感数据集,用于地物分类和图像分析。该数据集是由印度PPP项目(Project PE&O, Airborne Hyperspectral Imaging)收集的,包含了印度农田地区的航空遥感图像。 Indian Pines数据集包含了145×145个像素,共有145 x 145 = 21,025个像素点。每个像素点由145个不同波段的光谱值表示,这些波段是通过光谱扫描仪收集的。 该数据集主要用于研究和探索遥感图像的分类问题。印度农田地区的遥感图像具有较高的光谱分辨率,可以提供详细的地物信息。因此,通过对该数据集进行分类和分析,可以有效地检测和识别农田地区的不同地物类型,如农作物、树木、道路、建筑物等。 Indian Pines数据集还广泛应用于监督和无监督分类算法的评估,并用于研究新的图像处理和机器学习技术在遥感图像分析领域的应用。研究人员使用该数据集来设计和测试各种算法,从而提高地物分类和监测的准确性。 总的来说,Indian Pines数据集是一个重要的遥感数据集,用于地物分类、图像分析和算法评估。通过研究该数据集,可以深入了解农田地区的地物类型,并提出更有效的算法和技术,以用于农业监测、资源管理和环境保护等领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值