TOPK问题----代码实现打印数据中前K大的数

/*
问题:
	随机产生100000个整数,范围是【0,1000】,快速统计出值最大的前10个?
*/
#include<iostream>
#include<vector>
#include<queue>
#include<ctime>
#include<functional>
using namespace std;
class TopK{
public:
	TopK()
	{
		srand(time(NULL));//初始化时间种子
		for (int i = 0; i < 100000; ++i)
		{
			v.push_back(rand() % 1000);
		}
	}
	void PrintTopK(int k)
	{
		priority_queue<int, vector<int>, greater<int>> pri;//小根堆数据结构
		
		//先维持一个k个元素的小根堆
		for (int i = 0; i < k; ++i)
		{
			pri.push(v[i]);
		}

		//一次遍历往后遍历每个数
		for (int i = k; i < v.size(); ++i)
		{
			if (v[i] > pri.top())//如果比堆顶的大,就将堆顶的元素出堆,将该元素入堆
			{//因为堆顶的元素是k个元素中最小的,比堆顶大说明可能TOPK个元素之一
				pri.pop();
				pri.push(v[i]);
			}
		}
		//遍历一次后,小根堆中的元素都是所有元素中最大的 K个数
		for (int i = 0; i < k; ++i)
		{
			cout << pri.top() << "  ";
			pri.pop();
		}
	}
	vector<int> v;
};
int main()
{
	TopK t;
	t.PrintTopK(10);
	cin.get();
	return 0;
}

### 回答1: 我推荐使用scikit-learn中的KMeans算法来实现文档聚类。它的实现代码如下: from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans documents = ["this is the first document", "this document is the second document", "and this is the third one", "is this the first document"] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(documents) true_k = 2 model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1) model.fit(X) print("Top terms per cluster:") order_centroids = model.cluster_centers_.argsort()[:, ::-1] terms = vectorizer.get_feature_names() for i in range(true_k): print("Cluster %d:" % i), for ind in order_centroids[i, :10]: print(' %s' % terms[ind]), print ### 回答2: 基于TF-IDF的文档聚类是一种常用的文本挖掘技术,可以使用Python来实现。下面是基于`scikit-learn`库的一个示例代码: ```python import numpy as np from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans # 创建一个文档集合 documents = ["这是第一篇文档", "这是第二篇文档", "这是第三篇文档", "这是第四篇文档"] # 创建TfidfVectorizer对象,用于将文档集合转换为TF-IDF特征矩阵 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(documents) # 使用KMeans算法进行聚类 k = 2 # 设置聚类的量 kmeans = KMeans(n_clusters=k) kmeans.fit(tfidf_matrix) # 打印每个文档的聚类结果 for i, document in enumerate(documents): cluster_label = kmeans.labels_[i] print("文档 '{}' 属于聚类 {}".format(document, cluster_label)) ``` 在上述示例代码中,首先建立一个文档集合,这可以是一组字符串形式的文档。然后,创建一个`TfidfVectorizer`对象将文档集合转换为TF-IDF特征矩阵。接下来,使用KMeans算法对特征矩阵进行聚类。最后,通过`kmeans.labels_`属性获取每个文档的聚类结果。运行以上代码,将输出每个文档的所属聚类。 ### 回答3: 基于TF-IDF的文档聚类是一种常见的文本数据处理方法。以下是一种基于Python的实现代码: ```python import numpy as np from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans # 假设有个文本集合,每个文本代表一个样本 documents = [ "我 爱 中文", "学习 机器 学习", "自然 语言 处理", "中文 分词", "深度 学习", "机器 学习", "聚类 分析", ] # 创建TF-IDF向量化器 vectorizer = TfidfVectorizer() # 对文本进行向量化 X = vectorizer.fit_transform(documents) # 将稀疏矩阵转换为密集矩阵 X_dense = X.toarray() # 使用K-Means进行聚类 k = 2 # 指定聚类的簇 kmeans = KMeans(n_clusters=k) kmeans.fit(X_dense) # 输出每个文本的所属聚类 for i, label in enumerate(kmeans.labels_): print(f"文本 '{documents[i]}' 属于聚类 {label}") ``` 上述代码中,我们首先使用`TfidfVectorizer`类将文本集合向量化为TF-IDF特征。然后,将稀疏矩阵转换为密集矩阵,以便可以应用K-Means算法进行聚类。在本例中,我们指定了聚类簇`k`为2。最后,通过遍历每个文本的标签,我们可以输出每个文本所属的聚类。 需要注意的是,以上代码仅为文档聚类的简单示例,实际应用中可能需要进一步处理、优化以适应具体情况。如果需要处理更大规模的文本数据集,可能需要考虑使用分布式计算框架如Apache Spark或使用更高效的算法来处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值