[Research]算法框架

(一)Extend

package extend;
/* 
	基于CCD的微博词扩展
	将CCD原节点中的所有词加入到微博中
*/
// 从filename这个文件读取分好词的微博,然后构建ArrayList<HashMap<String, Integer>> HM_Seg结构
//	ArraryList每个元素(HashMap<String, Integer>)代表一条微博。微博中的每个词是一个<String, Integer>对
//	String表示这个单词,Integer是这个词在这句中出现的次数
public void expandSeg(String filepath)

(二)Integrate

package integrate;
/*
	根据相同词比率,按一定的threshold进行合并
*/
// 按设置的threshold对上面的extend得到的 ArrayList<HashMap<String, Integer>> 进行合并,
// 得到:HashMap<HashMap<String, Integer>, Integer> eqlClass
//	对每条微博添加了一个域Integer用于指示这条微博属于哪个等价类
public int combine1(double threshold)

// 得到等价类的微博集以后,计算微博词的TF IDF。
// 得到:ArrayList< Pair<String, Pair<TF, IDF>>, 
//					Integer> >
// 为每个单词增加了一个Pair<TF, IDF>

(三)Cluster

package cluster
/*
	使用Hierarchical Clustering Model
*/
// 不断在root下构建新的一层结点,得到层级聚类的结果
void hieCLuster()
...
/*
	使用java-ml 中的聚类算法
*/
// K-means
// 	构建java-ml需要使用的数据结构dataset<instance>
//		instance<double[], Object>表示一条微博,double[]是这条微博的attributes,Object是指示这条微博
//		dataset是instance的集合
//	得到:dataset []clusters
dataset [] KMeans(dataset weibo); 



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值