mahout 源码解析之聚类--聚类模型

本文主要探讨了Apache Mahout聚类模型的实现细节,重点关注Model、ClusterObservations和GaussianAccumulator。Model的抽象类AbstractCluster包含了关键的observe和computeParameters方法。ClusterObservations辅助类用于存储和更新组合状态及统计参数。而GaussianAccumulator接口提供样本集的统计信息更新。
摘要由CSDN通过智能技术生成

mahout聚类模型主要存在于包org.apache.mahout.clustering中,主要包含Model、ClusterObservations和GaussianAccumulator几部分。

一、Model

Model主要定义了以下几个函数:

	double pdf(O x);//计算x属于此模型的概率
	void observe(O x);//将加入此模型
	void observe(O x, double weight);//将带权重的x加入模型
	void observe(Model<O> x);//将模型加入模型
	void computeParameters();//计算参数,后面会讲,基本上是更新S0,S1,S2
	long getNumObservations();//获取此模型中样本个数,上一次更新参数到现在添加的样本数目
	long getTotalObservations();//获取样本总数
	Model<VectorWritable> sampleFromPosterior();//抽样
接口Cluster又继承了接口Model,在里面添加了几个属性和几个函数:

	String CLUSTERED_POINTS_DIR = "clusteredPoints";//所有样本点存放目录
	String INITIAL_CLUSTERS_DIR = "clusters-0";//初始簇存放目录
	String CLUSTERS_DIR = "clusters-";//每次迭代后的簇存放目录前缀
	String FINAL_ITERATION_SUFFIX = "-final";//最终的簇存放目录的后缀

	/**
	 * 簇编号
	 */
	int getId();

	/**
	 * 簇的中心
	 */
	Vector getCenter();

	/**
	 * 簇的半径
	 */
	Vector getRadius();

	/**
	 * 簇的描述
	 */
	String asFormatString(String[] bindings);

	/**
	 * 簇是否合并
	 */
	boolean isConverged();

抽象类AbstractCluster实现了接口Cluster,其中定义了一些变量:

	private int id;//簇编号

	private long numObservations;//此簇的样本数目

	private long totalObservations;//总共的样本数目

	private Vector center;//聚类中心

	private Vector radius;//聚类半径

	private double s0;//点的权重和

	private Vector s1;//点的加权和

	private Vector s2;//点的平方的加权和

此类中主要需要关注的是observe,不过无论其参数怎么变,目的就只有一个,进行S0,S1和S2的叠加。还有一个方法是computeParameters,其实就是更新一下S0,S1和S2。


二、ClusterObservations

ClusterObservations类为一个辅助类,记录了combinerState,S0,S1和S2几个参数,并提供了get*方法,对于combinerState还提供了incrementCombinerState方法,每次incrementCombinerState的值增加1。

	private int combinerState;//结合状态
	private double s0;//各个点权重之和
	private Vector s1;//各个点权重加权和
	private Vector s2;//各个点权重加权平方和


三、GaussianAccumulator

GaussianAccumulator接口定义了获取样本集一些统计信息的方法,大部分是get*方法,只有observe和compute是用来更新这些参数。

	/**
	 * 样本个数
	 * @return the number of observations
	 */
	double getN();

	/**
	 * 样本均值
	 * @return the mean of the observations
	 */
	Vector getMean();

	/**
	 * 样本标准差
	 * @return the std of the observations
	 */
	Vector getStd();

	/**
	 * 样本标准差的均值
	 * @return the average of the vector std elements
	 */
	double getAverageStd();

	/**
	 * 样本方差
	 * @return the variance of the observations
	 */
	Vector getVariance();

	/**
	 * Observe the vector
	 * 
	 * @param x
	 *            a Vector
	 * @param weight
	 *            the double observation weight (usually 1.0)
	 */
	void observe(Vector x, double weight);

	/**
	 * Compute the mean, variance and standard deviation
	 */
	void compute();

实现这个接口的是类RunningSumsGaussianAccumulator和类OnlineGaussianAccumulator,里面全部是一些数学计算,就不讲了。




1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 、4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、 4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.m或d论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 、1资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值