基本k-mean聚类的文本聚类算法原理和例子

最新推荐文章于 2024-03-09 14:12:32 发布

ExtraMan

最新推荐文章于 2024-03-09 14:12:32 发布

阅读量2.7k

点赞数 1

分类专栏：数据挖掘文章标签： k-mean 文本聚类 kmean入门例子

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ExtraMan/article/details/41743097

版权

基于质心的划分方法是研究最多的算法，包括k-mean聚类算法及其各种变体，这些变体依据初始簇的选择，对象的划分、相识度的计算方法、簇中心的计算方法不同而不同。基于质心的划分方法将簇中所有对象的平均值看做簇的质心，根据一个数据对象与簇质心的距离，将该对象赋予最近的簇。在这类方法中，需要给定划分的簇个数k，首先得到k个初始划分的集合，然后采用地带重定位技术，通过将对象从一个簇移到另外一个簇来改进划分的质量。

算法：k-mean

输入：数据集D，划分簇的个数k

输出：k个簇的集合

从数据集合D中任意选择k个对象作为初始簇中心；、

Repeat

For 数据集D中每个对象P do

计算对象P到k个簇中心的距离

将对象P指派到与其最近（距离最短）的簇

End for

计算每个簇中心对象的均值，作为新的簇的中心

Until k个簇的簇中心不再发生变化

（1）本例子的样本集合是选择搜狗语料库中的三类文章，每类10篇，如图

（2）对于文本聚类，使用中科院的分词库ICTCLAS，接口封装在split.h和split.cpp中，在分词时，本例子只选用了动词和名词

（3）特征词选取使用tf-idf方法来提取每篇文章的前100个根据tf-idf大小排序的特征词

词频tf（Term Frequency）是指一个词条在一个文本出现的频数。频数越大，则该词语对文本的贡献度越大。其重要

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
基本k-mean聚类的文本聚类算法原理和例子

基于质心的划分方法是研究最多的算法，包括k-mean聚类算法及其各种变体，这些变体依据初始簇的选择，对象的划分、相识度的计算方法、簇中心的计算方法不同而不同。基于质心的划分方法将簇中所有对象的平均值看做簇的质心，根据一个数据对象与簇质心的距离，将该对象赋予最近的簇。在这类方法中，需要给定划分的簇个数k，首先得到k个初始划分的集合，然后采用地带重定位技术，通过将对象从一个簇移到另外一个簇来改进划分的
复制链接

扫一扫

专栏目录

ExtraMan CSDN认证博客专家 CSDN认证企业博客

码龄12年

24: 原创

26万+: 周排名

162万+: 总排名

5万+: 访问

: 等级

760: 积分

9: 粉丝

10: 获赞

8: 评论

71: 收藏

私信

关注

热门文章

分类专栏

最新评论

缓存和数据库的最终一致性方案
CSDN-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
分享一个双目测距的项目
Chanyelo__: 你好，可以请教下双目测距相关么，qq2271805411
分享一个双目测距的项目
biptirb 回复 TaecyeonForever: 你好，我也是结果差好多，请问你最后解决了么？
分享一个双目测距的项目
dududu1207 回复 qq_37686403: 你好，想跟你讨论双目测距的问题。可否加qq1216567980
分享一个双目测距的项目
qq_37686403: 大大神好！我是一个新手，最近在弄关于双目测距的毕业设计，我的设计就是只有用双目拍摄一组图片，然后可以离线点击点云图获取其中某点的距离。我已经完成了标定，校准，匹配等任务，现在不知道该怎么获取视差图以及点云图。我的编程很渣，还望耐心指教，不胜感激。程序最后是这样的： IplImage *Left_Rectify_Img = cvLoadImage("A-Images\\Rectified Images\\Rectified Left Image.bmp", 0); IplImage *Right_Rectify_Img = cvLoadImage("A-Images\\Rectified Images\\Rectified Right Image.bmp", 0); CvStereoGCState *GCState = cvCreateStereoGCState(16, 50); // Parameters of numberOfDisparities and maxlters assert(GCState); CvMat *GCDispLeft = cvCreateMat(Left_Rectify_Img->height,Left_Rectify_Img->width,CV_16S); CvMat *GCDispRight = cvCreateMat(Right_Rectify_Img->height, Right_Rectify_Img->width, CV_16S); CvMat *GCDisp = cvCreateMat(Left_Rectify_Img->height, Left_Rectify_Img->width, CV_8U); cvFindStereoCorrespondenceGC(Left_Rectify_Img, Right_Rectify_Img, GCDispLeft, GCDispRight, GCState); cvNormalize(GCDispRight, GCDisp, 0, 255, CV_MINMAX); cvSaveIma("A-Images\\RectifiedImages\\StereoMatch.bmp", GCDisp);

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。